본문 바로가기

분류 전체보기

(45)
릿지 회귀 / 라쏘 회귀 / 일래스틱 회귀분석 사전 배경 이해 통계 데이터 분석에 있어서 모델의 단순화는 모델 일반화를 위해 매우 중요하다. 일반적인 다중선형회귀에서는 1. 독립변수 갯수가 표본크기에 비해서 지나치게 많을 경우 제대로된 성능을 발휘하기 어렵다. 불필요한 회귀계수는 모델의 예측성능을 저하시키기 떄문 2. 많은 독립변수가 존재할 경우 다중공선성으로 인해 회귀계수의 영향력이 과도하게 높게 측정될 수 있다. 패널티 회귀분석 (Penalized Regression) : 너무 많은 독립변수를 갖는 모델에 패널티를 부과하는 방식으로 기존 선형회귀의 과적합을 방지시키는 방법이다. ㄴ모델 성능에 크게 기여하지 못하는 변수의 영향력을 제거하거나 축소킨다. ㄴ일반적인 선형회귀는 MSE(잔차제곱합이 최소)으로 계산하지만 패널티 회귀분석에는 제곱합에 패널티..
태극과 음양오행 www.youtube.com/watch?v=GdrtkKfptiQ www.youtube.com/watch?v=ODc8mEE2nAU 그 자체는 무극이요, 자연이다. 그 자체로 음과 양의 종자인 태극이다. 음과 양을 5행으로 나눠볼 수 있으니 양(목,화), 중(토), 음(금,수)이다. 만물의 도가 그러하며 인도 또한 그러하다. 음양의 기운으로 만물이 발하고 멸한다. 음양에 따른 만물의 경영에 있어서도 음과 양, 선과 악이 있어 우주의 만사가 일어난다. 이 무극을 만물이 아닌 가장 잘 발현할 수 있는 인간으로 한정지어 볼 때 참나(무극/태극)로부터의 발현인 에고는 음양에 따라 마찬가지로 그 기운을 목(희), 화(락),금(노),수(애) 로 더 세분화할 수 있다. 또한, 참나와 에고는 맞닿아 있기 때문에 우리는 양..
확률밀도함수 그리고 KDE KDE : Kernel Density Estimation(커널밀도추정) 개념에 대해서 알아보자 밀도추정 (Density Estimation) : 현실세계에 존재하는 수 많은 대상 중 [대상의 어떤 특정 부분을 관찰]하면 [관련된 관측값]를 얻을 수 있다. 데이터분석에선 대상 그 자체는 전체 데이터셋(DB,Dataset)으로 표현되며, 대상이 갖는 특징은 변수(Variable)/속성(Atrribute)/특성(Features)/칼럼(Column)이라 말하고, 관련 관측값은 데이터값(Value)/개체(instance)/레코드(Record)/로우(Row)/데이터포인트(Datapoint)라고 말한다. 우리는 다양하게 관측될 수 있는 변수(혹은 칼럼)이 가지고 있는 본질적인 특성에 대해서 이야기하고자 한다. 결론부..
데이터 시각화 함수 정리 _Seaborn 1. countplot : 범주형 데이터 일때, label값에 따라 카운트 해줄 때 유용하다. - 칼럼을 구성하고 있는 값(value)에 따라 갯수카운트를 해준다. - 'hue= 칼럼' 파라미터로 target변수에 따라 카운팅 해주는 것도 매우 유용하다. sns.countplot(x='Census_ProcessorClass', hue='HasDetections',data=train_small) plt.show() 2. distplot : 연속형 변수일 때, 값의 분포를 확인할 때 유용하다. - 'bin = 숫자 ' 파라미터로 히스토그램 구간 값을 줄일 수 있다. - matplotlitb에서 hist 그래프와 kdeplot(확률밀도함수)을 통합한 그래프라고 한다. - 'vertical = 논리' 파라미터로..
객관식 필기 공부방법에 대한 고찰 사회조사분석사 2급에 합격했다. 필기 76점, 실기는 딱 60점으로 합격했다ㅋㅋㅋ - 필기 시험은 2~3일 공부했고(휴가 씀, 풀집중) - 실기 시험은 당일 새벽 2시부터 공부했다(정처기 실기 계속 준비하다가 포기). 사회조사분석사 앞부분이 고등학교 때 사회문화 교과와 겹쳤던 것을 제외하면, 기사급 시험에서 한번도 전공자 입장이었던 적이 없다. 비전공자, 노베이스 상태에서 필기시험에서 떨어진 적이 없으니 객관식은 이 공부방법이 맞다고 생각한다. ㄴ 현재 : ADSP, 정보처리기사(신유형)_필기 , 서비스경험디자인기사_필기 나 또한 시험의 난이도를 확인하기 위해 사전에 여러 검색을 했었으나 결국, 공부기간을 잡기 위해 그랬던 경우가 많았다. 나는 내 생각도 정리할 겸, 준비 기간별로 공부방법에 대해 적으려..
비전공자, 국비교육, 데이터분석가? 현재의 나 2021년 01월 20일 심란한 마음을 정리해보고자 이 일기를 쓴다. 나는 인문계열 대졸자로 현재 백수다. 작년 12월까지 IT솔루션영업직에서 근무하다가 퇴사했다. 내년이면 29살이라는 나이를 바라봤던 만큼, 퇴직서를 내는 것이 쉽지가 않았다. 지금은 퇴사하고 한달이라는 시간이 지났고 아직 그 무엇도 결정된 것이 없지만, 그 결정에 대해 후회는 없다. 퇴사 후 한달 정도의 시간을 돌이켜 보니, 막상 공부가 손에 잡히지 않아 방황했던 1~2주의 시간을 제외하고는 꾸준하게 공부로 시간을 늘리고 있다. 이렇게 집에서 공부할 수 있는 이유는 대학교 졸업시즌 때 우연한 기회로 접한 빅데이터 국비교육과정 덕분이다. 국비교육과정에 대해 말을 해볼까 한다. 빅데이터 국비교육 1차 교육은 학기 방학 중, 재학..
캐글코리아 커널 커리큘럼 유한님이 이전에 공유해주신 캐글 커널 커리큘럼 정리본입니다. 다들 Keep Going 합시다!! 커리큘럼 참여 방법 필사적으로 필사하세요 커널의 A 부터 Z 까지 다 똑같이 따라 적기! 똑같이 3번적고 다음 커널로 넘어가시면 됩니다. Binary classification : Tabular data 1st level. Titanic: Machine Learning from Disaster 타이타닉 튜토리얼 1 - Exploratory data analysis, visualization, machine learning EDA To Prediction(DieTanic) Titanic Top 4% with ensemble modeling Introduction to Ensembling/Stacking in P..
Kaggle로 알아보는 데이터 분석사고 1. 분석준비 단계 1. 주요하게 쓸 라이브러리를 미리 import한다. 2. 분석 데이터를 업로드 한다. 2. 데이터 EDA : Look over : 데이터의 전반적인 특징/경향을 살펴보아야 한다. - 데이터 Discription을 참고하여 어떤 의미의 칼럼으로 구성되어 있는지 파악한다. - 칼럼별 데이터타입 - 칼럼별 범주(크기)를 파악한다. - 칼럼별 NaN값을 확인한다. - 대략적인 그래프를 시각화. - 독립변수, 종속변수 결정 3+. 데이터 EDA : Feature Selection : 기계학습시킬 칼럼을 선별한다. - 칼럼별로 그래프로 그려보면서 종속변수와의 관계를 확인해본다. - 공분산 확인 - RandomForest 등 모델 이용 - 파생변수 3+. 데이터 EDA : preprocessin..