본문 바로가기

데이터분석&캐글

Kaggle로 알아보는 데이터 분석사고

1. 분석준비 단계

1. 주요하게 쓸 라이브러리를 미리 import한다.

2. 분석 데이터를 업로드 한다.

2. 데이터 EDA : Look over

: 데이터의 전반적인 특징/경향을 살펴보아야 한다.

- 데이터 Discription을 참고하여 어떤 의미의 칼럼으로 구성되어 있는지 파악한다.

- 칼럼별 데이터타입

- 칼럼별 범주(크기)를 파악한다.

- 칼럼별 NaN값을 확인한다.

- 대략적인 그래프를 시각화.

- 독립변수, 종속변수 결정

3+. 데이터 EDA : Feature Selection

: 기계학습시킬 칼럼을 선별한다. 

- 칼럼별로 그래프로 그려보면서 종속변수와의 관계를 확인해본다.

- 공분산 확인

- RandomForest 등 모델 이용

- 파생변수

3+. 데이터 EDA : preprocessing

: 모델이 기계학습을 잘 할 수 있도록 데이터를 잘 가공한다. (GIGO) 

- 데이터 타입별 처리 방법 결정   *난이도 상 : 범주형

- NaN 사용여부/처리 방법

- 파생변수

- Outlier 

- 데이터 스케일링

- 데이터 정규화

4. 모델 : 기계학습 

: 가지고 있는 데이터를 최대한으로 활용해서 모델을 학습시킨다.

- 학습의 검증을 위해 원본데이터를 Train_set / Test_set 으로 분할

- 교차검증 (평균값과 편차로 과적합여부 판단)

5. 모델사용(예측)

- 모델 시각화

- 새로운 데이터를 입력해서 결과 확인