1. 분석준비 단계
1. 주요하게 쓸 라이브러리를 미리 import한다.
2. 분석 데이터를 업로드 한다.
2. 데이터 EDA : Look over
: 데이터의 전반적인 특징/경향을 살펴보아야 한다.
- 데이터 Discription을 참고하여 어떤 의미의 칼럼으로 구성되어 있는지 파악한다.
- 칼럼별 데이터타입
- 칼럼별 범주(크기)를 파악한다.
- 칼럼별 NaN값을 확인한다.
- 대략적인 그래프를 시각화.
- 독립변수, 종속변수 결정
3+. 데이터 EDA : Feature Selection
: 기계학습시킬 칼럼을 선별한다.
- 칼럼별로 그래프로 그려보면서 종속변수와의 관계를 확인해본다.
- 공분산 확인
- RandomForest 등 모델 이용
- 파생변수
3+. 데이터 EDA : preprocessing
: 모델이 기계학습을 잘 할 수 있도록 데이터를 잘 가공한다. (GIGO)
- 데이터 타입별 처리 방법 결정 *난이도 상 : 범주형
- NaN 사용여부/처리 방법
- 파생변수
- Outlier
- 데이터 스케일링
- 데이터 정규화
4. 모델 : 기계학습
: 가지고 있는 데이터를 최대한으로 활용해서 모델을 학습시킨다.
- 학습의 검증을 위해 원본데이터를 Train_set / Test_set 으로 분할
- 교차검증 (평균값과 편차로 과적합여부 판단)
5. 모델사용(예측)
- 모델 시각화
- 새로운 데이터를 입력해서 결과 확인
'데이터분석&캐글' 카테고리의 다른 글
데이터스케일링_로그변환 (0) | 2021.02.25 |
---|---|
사람들이 선형회귀에 대해 잘못 알고있는 점 (0) | 2021.02.19 |
데이터 시각화 함수 정리 _Seaborn (0) | 2021.01.21 |
캐글코리아 커널 커리큘럼 (0) | 2021.01.20 |
범주형 자료 Encoding for Handling (0) | 2021.01.16 |