본문 바로가기

통계

(6)
통계를 이해하기 위한 로직 1. 통계에서는 모집단을 연산 하지 않는다. 표본을 통해서 추정하는 학문이다. 2. 사실 우리는 모집단이 정규분포를 따르는 것과 상관없이 모집단을 대상으로 측정하고자 했던 값의 대표값(평균값)과 모집단의 개체들이 이 대표값으로부터 평균적으로 얼마나 떨어져있는지(표준편차)만으로 많은 정보를 얻을 수 있다. 3. 다행이 모집단의 평균값과 표준편차는 표본으로부터 구할 수 있음이 중심극한정리를 통해 수학적으로 증명되었다. 3. 따라서 모수 추정을 위해 통계학의 모든 관심은 표본집단이다. (*명확히는 표본의 통계분포) 통계학에서 관심있는 대상은 대표값과 대표값이 갖는 오차이다. 1. 통계학에서 대표값은 평균이다. 평균값이 집단을 대표한다. 2. 그러나 모든 표본 통계값이 그렇듯이 표본 통계량은 추정값으로 오차를 ..
확률 기본 개념 경우의 수 : 내가 관심을 가지는 사건 ex. 동전을 던져서 앞면이 나온다. 확률 : 경우의 수 빈도수 놀이, 내가 보고자하는 경우의 수 / 전체 일어날 수 있는 경우의 수 ex. '동전을 8번 던지면 과연 앞면이 몇번 나올까' 를 표현할 때 확률분포 (分布) : 모집단 혹은 표본집단에서 여러 경우의 수에 대한 각 확률을 표 형태로 표현한 것. 즉, 확률변수에 따라 확률이 어떻게 흩어져 있는지 표현한 것이다. 사전정의 : 확률이 흩어져 퍼져있는 것 한자풀이 : 확률이 나누어진 것이 퍼져있다. 확률변수 : 확률질량 함수, 확률밀도함수, 연속확률함수 등의 확률분포함수 f(x)에서 x에 대응하는 값을 의미한다. 즉, 어떤 분포에서 각 사건(확률X)에 대응된다. 확률(질량)함수 : [어떤 분포]에서 [어떤 사건..
릿지 회귀 / 라쏘 회귀 / 일래스틱 회귀분석 사전 배경 이해 통계 데이터 분석에 있어서 모델의 단순화는 모델 일반화를 위해 매우 중요하다. 일반적인 다중선형회귀에서는 1. 독립변수 갯수가 표본크기에 비해서 지나치게 많을 경우 제대로된 성능을 발휘하기 어렵다. 불필요한 회귀계수는 모델의 예측성능을 저하시키기 떄문 2. 많은 독립변수가 존재할 경우 다중공선성으로 인해 회귀계수의 영향력이 과도하게 높게 측정될 수 있다. 패널티 회귀분석 (Penalized Regression) : 너무 많은 독립변수를 갖는 모델에 패널티를 부과하는 방식으로 기존 선형회귀의 과적합을 방지시키는 방법이다. ㄴ모델 성능에 크게 기여하지 못하는 변수의 영향력을 제거하거나 축소킨다. ㄴ일반적인 선형회귀는 MSE(잔차제곱합이 최소)으로 계산하지만 패널티 회귀분석에는 제곱합에 패널티..
확률밀도함수 그리고 KDE KDE : Kernel Density Estimation(커널밀도추정) 개념에 대해서 알아보자 밀도추정 (Density Estimation) : 현실세계에 존재하는 수 많은 대상 중 [대상의 어떤 특정 부분을 관찰]하면 [관련된 관측값]를 얻을 수 있다. 데이터분석에선 대상 그 자체는 전체 데이터셋(DB,Dataset)으로 표현되며, 대상이 갖는 특징은 변수(Variable)/속성(Atrribute)/특성(Features)/칼럼(Column)이라 말하고, 관련 관측값은 데이터값(Value)/개체(instance)/레코드(Record)/로우(Row)/데이터포인트(Datapoint)라고 말한다. 우리는 다양하게 관측될 수 있는 변수(혹은 칼럼)이 가지고 있는 본질적인 특성에 대해서 이야기하고자 한다. 결론부..
T-value / F-value에 대한 본질적 통찰 [ 전제 ] T-value 와 F-value는 말 그대로 Value 값이다. 즉 어떤 모집단이나 표본집단의 Variable이 아니라는 점을 기억하고 출발하자. [ OO-value의 본질적 의미 ] T-value와 F-value 는 집단 간의 차이를 표준화 시킨 값이다. 즉 A라는 표본집단, B라는 표본집단이 있을 때 (모집단이 아니라는 점도 눈여겨 보자) 두 집단 혹은 두 집단 이상이 '수치적으로 어느정도 차이가 있는지'를 나타낸 Value 인 것이다. ㄴ 집단의 갯수에 따라 계산법이 조금 상이해지는 것일 뿐 그 본질적인 의미는 같다. [ -value 계산을 위한 필수 개념 ] 1. 통계에서는 집단을 대표하는 검정통계값을 '평균'으로 사용한다. 2. 표본통계값은 항상 오차를 갖고 있는 불확실한 값이다. ..
평균,편차,공분산, 상관계수 행과 열에 대한 개념정리 행 = 데이터포인트 = 관측값 = 레코드 = 개체 = 로우 열 = 칼럼 = 속성 = 피쳐 평균 평균은 기대값(데이터로 부터 기대되는 값) 혹은 대표값(데이터를 대표하는 값)으로도 불린다. #1. 산술통계 : 모든 데이터포인트의 값을 더한 후 전체 갯수로 나눈다. #2. 확률 : 대표 데이터포인트에 가중치를 곱하여 합한 값 (가중치 = 확률 = 해당갯수/전체갯수) 편차 : 각 칼럼에서 데이터포인트와 평균과의 차이 분산 : 편차들을 제곱하여 평균 ㄴ 음수 값을 없애기 위함 >표준편차 : 기대값(평균값)으로부터 데이터가 평균적으로 떨어져있는 거리 = |편차|의 평균 = 분산의 제곱근 공분산 공분산은 부호를 통해 서로 다른 칼럼 간의 경향성을 보여주고 상관계수는 공분산의 표준화를 통해 ..