본문 바로가기

머신러닝&딥러닝

(5)
Numpy 기본 함수/연산자 구분 목적 함수/연산자 ndarray 객체 1. 데이터값은 숫자,문자열,불 값 모두 가능 2. 단, 같은 데이터 타입으로만 구성됨 ndarray 생성 np.array( 리스트 ) ndarray 차원 ndarray.ndim ndarry 데이터값 타입 ndarray.dtype ndarray 데이터값 타입변경 ndarray.astype( ) ndaary list로 변경 ndarray.tolist( ) ndarray 일괄생성 ndarray.arange(range ) , ndarray.zeros((행,열) ) , ndarray.ones((행,열) ) ndarray 차원변경 ndarray.reshape(행,열) *-1 : 자동호환 ndarray 인덱싱 ndarray[ ] : 단일 [ ], 슬라이싱 [ : ], 팬시..
Numpy 와 Pandas는 다르다. Numpy와 Pandas의 API가 서로 상호작용이 가능하고, 대부분 우리가 Numpy를 다룰 때 1차원이나 2차원의 데이터를 보며 주로 handling 하기 때문에 종종 Pandas와 차이를 느끼지 못할 때가 많다. 물론 이는 그 데이터의 형태나 구조적인 측면이 서로 공통점이 있기 때문에 종종 그렇게도 사용되고 있으나 본래 둘은 서로 다르다. 그 이유를 결론부터 얘기하면 그 기반이 다르다. Numpy는 선형대수 기반의 배열로 작성되며 빠른 연산을 강점으로 딥러닝 주요 알고리즘에서 사용되고 있다. Pandas는 numpy기반으로 만들어진 RDMS(관계형데이터베이스)_Table 형태의 데이타셋이다. 2차원 Table 형태로 다양한 칼럼(차원)을 관리할 수 있도록 만들어졌다. Numpy와 Pandas 데이터..
파라미터 vs 하이퍼파라미터 파라미터 : 기계학습 모델에서 데이터에 의해(or 알고리즘에 의해) 기계에 의해 자동적으로 학습되는 요소 ex) 인공신경망 가중치 하이퍼 파라미터 : 기계학습 모델에서 모델의 구조 등과 관련하여 사용자가 지정해주어야 하는 요소 ex) 인공신경망 은닉층의 유닛 개수, 활성화 함수 등
Feature Selection Feature Selection (특성 선택) 이란 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택하는 것을 말한다. Feature Selection 과 Feature Extraction 은 다르다. Feature Selection 이 변수 A, B, C, D 중 모델이 분류하는데 가장 중요하게 사용한 변수 B, C라는 조합을 찾아내는 것이라면, Feature Extraction 은 모든 변수를 조합하여 데이터를 잘 표현할 수 있는 새로운 변수를 추출한다. 예를 들어 A, B, C, D 변수를 조합하여 a, b, c, d라는 새로운 변수를 추출한다 즉, 모델의 분류 정확도를 향상시키기 위해, 원본 데이터에서 가장 좋은 성능을 보여불 수 있는 데이터의 부분집합(Subset)을 찾아내는 방법이라는 ..
노이즈 데이터 (Nosiy Data) 노이즈가 없는 데이터는 존재하지않는다. 물론 양자역학은 다르게 말하겠지만, 노이즈는 원인을 모르기 때문이다. 기본적으로 확률은 잘 존재하지않는다. 동전을 던진경우 다른 결과가 나온다고? 아니다. 모두 같은 이유때문에 결과가 나온 것이다. 앞면, 뒷면, 세워지는 경우중 하나로 결과가 정해지기때문이다. 예전에 함수는 X ->Y라고 배우지 않았는가. 모든 이유를 안다면 동일한 결과가 나온다. 같은 조건에서 동전을 던지면 같은 면이 나온다. 노이즈가 있는 데이터는 우리가 아직 알아차리지 못한 원인이 있는 데이터인 경우가 대부분이다. 모든 조건이 같은데 다른 값이 나온다는 것은 이상하다. 사람은 같은 조건일때, 다른 판단을 한다고 생각할수도 있다. 같은 장소에서 같은 도구로 타자를 치는데 어떤 날은 오타가 날수도..