데이터분석&캐글
Kaggle로 알아보는 데이터 분석사고
인생은챌린지
2021. 1. 20. 20:39
1. 분석준비 단계
1. 주요하게 쓸 라이브러리를 미리 import한다.
2. 분석 데이터를 업로드 한다.
2. 데이터 EDA : Look over
: 데이터의 전반적인 특징/경향을 살펴보아야 한다.
- 데이터 Discription을 참고하여 어떤 의미의 칼럼으로 구성되어 있는지 파악한다.
- 칼럼별 데이터타입
- 칼럼별 범주(크기)를 파악한다.
- 칼럼별 NaN값을 확인한다.
- 대략적인 그래프를 시각화.
- 독립변수, 종속변수 결정
3+. 데이터 EDA : Feature Selection
: 기계학습시킬 칼럼을 선별한다.
- 칼럼별로 그래프로 그려보면서 종속변수와의 관계를 확인해본다.
- 공분산 확인
- RandomForest 등 모델 이용
- 파생변수
3+. 데이터 EDA : preprocessing
: 모델이 기계학습을 잘 할 수 있도록 데이터를 잘 가공한다. (GIGO)
- 데이터 타입별 처리 방법 결정 *난이도 상 : 범주형
- NaN 사용여부/처리 방법
- 파생변수
- Outlier
- 데이터 스케일링
- 데이터 정규화
4. 모델 : 기계학습
: 가지고 있는 데이터를 최대한으로 활용해서 모델을 학습시킨다.
- 학습의 검증을 위해 원본데이터를 Train_set / Test_set 으로 분할
- 교차검증 (평균값과 편차로 과적합여부 판단)
5. 모델사용(예측)
- 모델 시각화
- 새로운 데이터를 입력해서 결과 확인