본문 바로가기

분류 전체보기

(45)
파라미터 vs 하이퍼파라미터 파라미터 : 기계학습 모델에서 데이터에 의해(or 알고리즘에 의해) 기계에 의해 자동적으로 학습되는 요소 ex) 인공신경망 가중치 하이퍼 파라미터 : 기계학습 모델에서 모델의 구조 등과 관련하여 사용자가 지정해주어야 하는 요소 ex) 인공신경망 은닉층의 유닛 개수, 활성화 함수 등
Pandas_DataFrame _processing_Tech 1. df[조건형] -> 특정 칼럼 조건에 맞는 행으로 모든 칼럼 출력 individual_features_df = [] for i in range(0, len(df_num.columns) - 1): # -1 because the last column is SalePrice tmpDf = df_num[[df_num.columns[i], 'SalePrice']] tmpDf = tmpDf[tmpDf[df_num.columns[i]] != 0] individual_features_df.append(tmpDf) 2. 특정 데이터타입의 칼럼만 알고싶을 때 #1 s = (df.dtypes == 'object') object_cols = list(s[s].index) print("Categorical variable..
Feature Selection Feature Selection (특성 선택) 이란 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택하는 것을 말한다. Feature Selection 과 Feature Extraction 은 다르다. Feature Selection 이 변수 A, B, C, D 중 모델이 분류하는데 가장 중요하게 사용한 변수 B, C라는 조합을 찾아내는 것이라면, Feature Extraction 은 모든 변수를 조합하여 데이터를 잘 표현할 수 있는 새로운 변수를 추출한다. 예를 들어 A, B, C, D 변수를 조합하여 a, b, c, d라는 새로운 변수를 추출한다 즉, 모델의 분류 정확도를 향상시키기 위해, 원본 데이터에서 가장 좋은 성능을 보여불 수 있는 데이터의 부분집합(Subset)을 찾아내는 방법이라는 ..
노이즈 데이터 (Nosiy Data) 노이즈가 없는 데이터는 존재하지않는다. 물론 양자역학은 다르게 말하겠지만, 노이즈는 원인을 모르기 때문이다. 기본적으로 확률은 잘 존재하지않는다. 동전을 던진경우 다른 결과가 나온다고? 아니다. 모두 같은 이유때문에 결과가 나온 것이다. 앞면, 뒷면, 세워지는 경우중 하나로 결과가 정해지기때문이다. 예전에 함수는 X ->Y라고 배우지 않았는가. 모든 이유를 안다면 동일한 결과가 나온다. 같은 조건에서 동전을 던지면 같은 면이 나온다. 노이즈가 있는 데이터는 우리가 아직 알아차리지 못한 원인이 있는 데이터인 경우가 대부분이다. 모든 조건이 같은데 다른 값이 나온다는 것은 이상하다. 사람은 같은 조건일때, 다른 판단을 한다고 생각할수도 있다. 같은 장소에서 같은 도구로 타자를 치는데 어떤 날은 오타가 날수도..
T-value / F-value에 대한 본질적 통찰 [ 전제 ] T-value 와 F-value는 말 그대로 Value 값이다. 즉 어떤 모집단이나 표본집단의 Variable이 아니라는 점을 기억하고 출발하자. [ OO-value의 본질적 의미 ] T-value와 F-value 는 집단 간의 차이를 표준화 시킨 값이다. 즉 A라는 표본집단, B라는 표본집단이 있을 때 (모집단이 아니라는 점도 눈여겨 보자) 두 집단 혹은 두 집단 이상이 '수치적으로 어느정도 차이가 있는지'를 나타낸 Value 인 것이다. ㄴ 집단의 갯수에 따라 계산법이 조금 상이해지는 것일 뿐 그 본질적인 의미는 같다. [ -value 계산을 위한 필수 개념 ] 1. 통계에서는 집단을 대표하는 검정통계값을 '평균'으로 사용한다. 2. 표본통계값은 항상 오차를 갖고 있는 불확실한 값이다. ..
범주형 자료 Encoding for Handling How Handling Categorical Variables For tree-based models (like decision trees and random forests), you can expect label encoding to work well with ordinal variables : 순서형 변수에서 사용. 1. Replace using the map function : 각 범주형 값을 숫자로 mapping 2. Label Encoding : LabelEncoder 사용한 mapping In contrast to label encoding, one-hot encoding does not assume an ordering of the categories. Thus, you can expect ..
카디널리티란 cardinality dict) The number of elements in a set or other grouping, as a property of that grouping. 카디널리티에 대해 공부하다가 개념이 너무 어렵게 설명되어있어서, 핵심적인 내용만 (최대한) 쉽게 정리해보고자 한다. 우선 결론부터 말하자면, '데이터 비중복도 '를 말한다. 즉, 관측치별 중복이 적어 key_value속성이 될 수 있는 정도를 뜻한다. 우리는 테이블을 볼 때 Row 간 특정 값들의 중복도가 ‘낮으면’ 카디널리티가 ‘높다’고 표현한다. 중복도가 ‘높으면’ 카디널리티가 ‘낮다’고 표현한다. 카디널리티는 전체 행에 대한 특정 컬럼의 중복 수치를 나타내는 지표이다. 이정도만 설명해도 말이 너무 어려운 것 같다. 하지만..
Anaconda_prompt cceeddcc.tistory.com/4 1. 기본적인 명령어 아나콘다(Anaconda) 키워드 [버전확인] conda --version [아나콘다 업데이트] conda update conda [라이브러리(패키지)명과 버젼확인] conda list [라이브러리(패키지) 설치 및 업데이트] conda install 라이브러리명 conda update 라이브러.. cceeddcc.tistory.com 2. conda install -c conda-forge velog.io/@prayme/conda%EB%9E%80 conda란? 운이 좋게 이번 방학에 KISTI 슈퍼컴퓨팅인프라센터에서 알바를 하게 되었다. 슈퍼컴퓨터의 OS는 당연히 linux이고 Centos를 사용하고 있었다. 개발을 하던 도중 깔려있지 않은..