노이즈가 없는 데이터는 존재하지않는다. 물론 양자역학은 다르게 말하겠지만, 노이즈는 원인을 모르기 때문이다.
기본적으로 확률은 잘 존재하지않는다. 동전을 던진경우 다른 결과가 나온다고? 아니다. 모두 같은 이유때문에 결과가 나온 것이다. 앞면, 뒷면, 세워지는 경우중 하나로 결과가 정해지기때문이다. 예전에 함수는 X ->Y라고 배우지 않았는가. 모든 이유를 안다면 동일한 결과가 나온다. 같은 조건에서 동전을 던지면 같은 면이 나온다.
노이즈가 있는 데이터는 우리가 아직 알아차리지 못한 원인이 있는 데이터인 경우가 대부분이다. 모든 조건이 같은데 다른 값이 나온다는 것은 이상하다. 사람은 같은 조건일때, 다른 판단을 한다고 생각할수도 있다. 같은 장소에서 같은 도구로 타자를 치는데 어떤 날은 오타가 날수도 있고 아닐수도 있다. 이는 우리가 그 사람의 행동을 관장하는 ‘어떤 것’을 파악하지 못하였기 때문이다. 이사람이 지금까지 어떤 삶을 살아왔는지 정확히 알고있다면 실수나 선택은 예측가능하다.
머신러닝에서 노이즈는 어떤 의미일까? 머신러닝에서 데이터는 진리이다. 이 데이터에 가장 알맞은 함수를 만들어 내는 것이 머신러닝의 기본이다. 우리의 모델은 노이즈를 알아차리기 힘들다. 노이즈가 적다면 아무문제도 되지 않는다. 가장 알맞은 모델을 만들려고 하기 때문에 상대적으로 적은 노이즈의 영향은 감소된다.
만약 데이터에 노이즈가 많다면 어떻게 될까? 아마도 데이터를 보기도 힘들 것이다. 노이즈가 절반까지는 그래도 학습이 잘 진행된다. 그러나 노이즈가 90%가 넘어가고 실제 데이터가 잘 보이지 않는 경우엔 문제가 생긴다. 이론적으로 노이즈에 영향을 미치는 변수를 다 찾아내었는데 지속적으로 노이즈 데이터가 너무 많다면, 우리는 잘못된 영향을 찾은 것이다. 결과와 어떠한 관계가 성립하는 원인(feature)이라면 노이즈의 비율이 줄어들 것 이다. 이는 원인이 여러가지 일때도 통용되는 개념이다.
머신러닝은 함수근사이다. 아주 복잡한 함수를 근사할수있다. 우리가 노이즈라고 본것이 노이즈일지 아닐지 어떻게 아는가? 그 이유는 우리는 함수를 알고있기에 가능 한 것이다.
노이즈의 비율이 80%이다. 우리는 아직도 사인함수를 찾을수 있다. 이는 우리가 어떤 한수의 형태로 나올 것임을 알고 있기 때문이다. 이런 경우에는 노이즈를 제거해야한다. 노이즈를 판별하는 연구는 많이 진행되고 있다. 데이터 정제를 사람이 아닌 인공지능이 하는 때도 곧 올것이다. 최근에 사진에서 그래프를 인식하는 논문이 나왔다. 이러한 연구가 계속 진행된다면 더욱 정확한 예측이 가능해 질것이다.
과연 100%예측이 이론적으로 가능할까? 그렇지않다. 우리가 예측하는 것은 근사치이다. 모든 원인을 알고있어도 불가능하다. 물리학에는 미래를 예측할 수 있다는 예측이 돌기도 하였다. 그러나 그 이야기는 양자역학에 의하여 부정되었다. 불확실성의 원리가 그런것이다. 그렇다고 의미가 없는 예측은 아니다. 우리가 그렇게 세밀하게 살지 않기 때문에 먼 미래를 예측하는 정도의 인공지능은 필요하지 않다. 그러나 예측보다는 계산을 줄이려는(예측할 수 있는 것을 예측하는) 시도는 계속되고있다. 유체역학이 그 분야이다. 엄청난 계산을 하는것 대신 인공지능을 이용하여 함수를 근사하는 것이다. 이렇게 한다면 계산량이 줄것이다. 이렇듯 인공지능은 필요한 도구로써 자리잡고있다.
출처 : laswonho.medium.com/noisy-data-8046056682ad
'머신러닝&딥러닝' 카테고리의 다른 글
Numpy 기본 함수/연산자 (0) | 2021.02.14 |
---|---|
Numpy 와 Pandas는 다르다. (0) | 2021.01.27 |
파라미터 vs 하이퍼파라미터 (0) | 2021.01.19 |
Feature Selection (0) | 2021.01.17 |