본문 바로가기

데이터분석&캐글

(6)
데이터스케일링_로그변환 데이터가 skew 되어 있으면 항상 log변환한다라고 거의 암기하듯 받아들였다. 다른 다양한 포스팅들을 보며 도대체 로그변환을 왜 하는 것인지 한번 알아보자. 출처 : bpapa.tistory.com/66 데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다. 데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다. 데이터 간 편차를 줄여 왜도1(skewness)와 첨도2(Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다. 예를 들어, 연령 같은 경우에는 숫자의 범위가 약 0세~120세 이하 이겠지만, 재산 보유액 같은 경우에는 0원에서 몇 조단위까지 올라갈 수 있다. 즉, 데이터 간 단위가 달..
사람들이 선형회귀에 대해 잘못 알고있는 점 선형회귀를 코딩으로 접할 때마다 어떤 과정과 어떤 원리로 동작하는지 파악하려 했다. 그리고 선형회귀를 접한지 1년이 지난 지금, 선형대수, 코딩, 통계의 개념을 통해 흩어져 있던 퍼즐을 드디어 맞췄다. 잘못된 개념으로 풀이하는 정보가 넘쳐났고, 찾아보더라도 파편적으로 공부했기 때문에 오래 걸렸던 것 같다. 그러니 한편으로는 나처럼 많은 사람들이 계속 잘못 알 수도 있겠다 라고 생각된다. 관련된 내용을 항목별로 나눠 적어보겠다. 1. 숫자인 데이터면 컴퓨터는 선형모델을 만든다. : 통계적으로 선형회귀 가정에는 선형성, 독립성, 정규성, 등분산성의 4가지 조건이 존재한다. 그래서 이 가정을 만족하지 않다면 선형회귀모델이 만들어지지 않기 때문에 모델이 만들어졌다면 이 모델은 어쨌든 유효하긴 하고, 파라미터 조..
데이터 시각화 함수 정리 _Seaborn 1. countplot : 범주형 데이터 일때, label값에 따라 카운트 해줄 때 유용하다. - 칼럼을 구성하고 있는 값(value)에 따라 갯수카운트를 해준다. - 'hue= 칼럼' 파라미터로 target변수에 따라 카운팅 해주는 것도 매우 유용하다. sns.countplot(x='Census_ProcessorClass', hue='HasDetections',data=train_small) plt.show() 2. distplot : 연속형 변수일 때, 값의 분포를 확인할 때 유용하다. - 'bin = 숫자 ' 파라미터로 히스토그램 구간 값을 줄일 수 있다. - matplotlitb에서 hist 그래프와 kdeplot(확률밀도함수)을 통합한 그래프라고 한다. - 'vertical = 논리' 파라미터로..
캐글코리아 커널 커리큘럼 유한님이 이전에 공유해주신 캐글 커널 커리큘럼 정리본입니다. 다들 Keep Going 합시다!! 커리큘럼 참여 방법 필사적으로 필사하세요 커널의 A 부터 Z 까지 다 똑같이 따라 적기! 똑같이 3번적고 다음 커널로 넘어가시면 됩니다. Binary classification : Tabular data 1st level. Titanic: Machine Learning from Disaster 타이타닉 튜토리얼 1 - Exploratory data analysis, visualization, machine learning EDA To Prediction(DieTanic) Titanic Top 4% with ensemble modeling Introduction to Ensembling/Stacking in P..
Kaggle로 알아보는 데이터 분석사고 1. 분석준비 단계 1. 주요하게 쓸 라이브러리를 미리 import한다. 2. 분석 데이터를 업로드 한다. 2. 데이터 EDA : Look over : 데이터의 전반적인 특징/경향을 살펴보아야 한다. - 데이터 Discription을 참고하여 어떤 의미의 칼럼으로 구성되어 있는지 파악한다. - 칼럼별 데이터타입 - 칼럼별 범주(크기)를 파악한다. - 칼럼별 NaN값을 확인한다. - 대략적인 그래프를 시각화. - 독립변수, 종속변수 결정 3+. 데이터 EDA : Feature Selection : 기계학습시킬 칼럼을 선별한다. - 칼럼별로 그래프로 그려보면서 종속변수와의 관계를 확인해본다. - 공분산 확인 - RandomForest 등 모델 이용 - 파생변수 3+. 데이터 EDA : preprocessin..
범주형 자료 Encoding for Handling How Handling Categorical Variables For tree-based models (like decision trees and random forests), you can expect label encoding to work well with ordinal variables : 순서형 변수에서 사용. 1. Replace using the map function : 각 범주형 값을 숫자로 mapping 2. Label Encoding : LabelEncoder 사용한 mapping In contrast to label encoding, one-hot encoding does not assume an ordering of the categories. Thus, you can expect ..