본문 바로가기

통계

평균,편차,공분산, 상관계수

행과 열에 대한 개념정리

행 = 데이터포인트 = 관측값 = 레코드 = 개체 = 로우

열 = 칼럼 = 속성 = 피쳐

평균

평균은 기대값(데이터로 부터 기대되는 값) 혹은 대표값(데이터를 대표하는 값)으로도 불린다.

<연산방법>

#1. 산술통계 : 모든 데이터포인트의 값을 더한 후 전체 갯수로 나눈다.

#2. 확률 : 대표 데이터포인트에 가중치를 곱하여 합한 값  (가중치 = 확률 = 해당갯수/전체갯수)

편차

: 각 칼럼에서 데이터포인트와 평균과의 차이

분산

: 편차들을 제곱하여 평균

ㄴ 음수 값을 없애기 위함

 

>표준편차

: 기대값(평균값)으로부터 데이터가 평균적으로 떨어져있는 거리

= |편차|의 평균

= 분산의 제곱근


공분산

<결론>
공분산은 부호를 통해 서로 다른 칼럼 간의 경향성을 보여주고
상관계수는 공분산의 표준화를 통해 상관관계를 보다 명확히 나타낸다.

1) 정의

공 + 분산 = Co + Variance

: 하나의 데이터에서 2개 속성(Atribute/Column) 간 편차를 보겠다.(for 상관관계를 유추하기 위해)

따라서 엄밀히 말하면 Co + Deviation으로 기억하는 것이 더 기억하기 좋다.
내 생각엔 A칼럼 B칼럼이 존재할 때 분산은 A편차*A편차/n 라고 하면 공분산은 A편차*B편차/n이기 때문에
분산과 생김새가 유사하여 Co + Variance로 정의한 것 같다. 

위 그림은 2개의 컬럼을 갖고 있는 테이블이다.

따라서 C친구의 데이터는 키의 관점과 몸무게의 관점으로 밖에 나뉘지 않는다. 

우리가 앞으로 볼 실제 복잡한 데이터에서 공분산을 본다는 것은 어떤 의미일까? 

데이터에 있는 여러 칼럼 중 2개의 관점(칼럼) 뽑아 

서로 상관관계가 있는지 파악할 때 공분산이 사용된다.

   ㄴ 편차를 이용한 2개 칼럼 간 관계?             : 공분산

   cf)  칼럼간 단위를 없애고 평균을 맞춘다?      : 표준정규화분포 

 

* 공분산을 구하는 과정 (위/아래 그림을 서로 비교해보면 된다)

1) 개체(행)의 비교하고자 하는 칼럼(열)에서의 평균값을 구한다.

2) 각 개체별로 칼럼별 편차 서로 곱한다.

3) 개체별 칼럼별 편차를 곱한 값의 기대값을 구한다. 

 

2) 공분산이 어떻게 칼럼별 상관관계를 나타낼 수 있을까?

공분산의 연산은 개체(행)별로 비교 칼럼의 '편차값을 서로 곱한 것'을 '평균'한 값이었다.

이 계산의 결과가

- 양수라는 것은 비교 칼럼간 데이터의 변동 방향이 서로 같은(+) 것이 많았다는 말이고

- 음수라는 말은 비교 칼럼간 데이터의 변동 방향이 서로 다른( - ) 것이 많았다는 말이다. 

 

다시 찬찬히 생각해보자.

편차는 평균으로부터의 오차라고 생각할 수 있다. 

이 편차의 방향성이 같다는 말은 A가 평균으로부터+10 이면 B는 평균으로부터+2 라는 식으로 데이터의 변동방향이 같음으로 생각할 수 있다.

 

즉, 데이터에서 A칼럼과 B칼럼이 있다고 했을 때

각 개체 간 A,B의 편차합이 부호가 (+)로 양의 방향성을 띈다는 말은

A와 B가 서로 같은 방향성을 갖는 데이터쌍으로 대부분 구성되었음을 말한다.

+(양) : 개체의 칼럼별 편차가 서로 같은 부호( '+')인 데이터인 경향을 가진다는 말이고, 값이 클수록 그 정도도 큰 것

-(음) : 개체의 칼럼별 편차가 서로 다른 부호 (' - ')인 데이터가 더 많다는 것, 값이 클수록 그 정도가 많았다는 것을 의미.

 ㄴ 공분산은 상관관계를 내포하고 있다. 

3) 공분산과 상관계수

: 공분산으로 우리는 서로 다른 칼럼 간 상관관계에 대해 대략적으로 파악해 볼 수 있었다.

그러나 공분산 그 자체로는 아래 예에서 볼 수 있듯이 표준적인 수치는 아니라는 것에 주목해야 한다.

단위를 주목해보자. 

한 칼럼은 키(cm)이고, 다른 칼럼은 몸무게(kg)이다. 따라서 A개체의 데이터 175와 75는 서로 전혀 다른 데이터다.

 

여기서 우리는 다음과 같은 결론을 낼 수 있다. 

: 공분산은 어떤 경향성을 파악하는데 도움이 될 수 있지만, 단위 차이로 인해 값의 구체적인 의미는 파악하지 못한다. 

 

이를 해결하기 위해 우리는 서로 다른 분포를 비교하기 위해 표본통계량을 표준화 작업(표준정규화)를 되짚어보자.

https://drhongdatanote.tistory.com/50

우리는 표준정규화는 X-m의 값을 표준편차로 나누었다는 것을 유의해서 보자. 

즉, 평균을 뺌으로서 기준점을 동일하게 만들었고, 분산이라는 기준의 같은 단위로 나누어 단위가 갖는 의미를 없어버렸다는 것이다.

 

자 그럼 공분산을 어떻게 표준화 시킬까??

표준정규화 원리처럼, 표준편차라는 동일한 단위로 나누는 것이다.

 : 여기서 우리는 각 2개의칼럼별 표준편차의 곱을 단위로 하여 나눠준다. 

<심화과정>

ㅇ 표준편차를 이용하는 이유

ㄴ 1) 평균을 이용하게 될 경우, 값 스케일 자체가 차이가 심해진다. 비슷한 스케일과 동일 단위인 표준편차를 이용.

ㄴ 2) 선형대수학적 접근

ㅇ 2개 칼럼의 표준편차곱으로 나눠줄 수 있는 이유  

ㄴ 1) 선형대수 : 벡터 내적 계산 결과의 해석

       (두 벡터 간 정사영 관계= 내적값/norm(a)*norm(b) ) ~ 두 벡터 간 정사영 관계 : cos세타

ㄴ 2) 확률 : 여기에는 A,B 두 사건이 독립일 때 E(A*B) = E(A)*E(B) 이 성립함을 이용한 내막에 깔려있다.

https://www.youtube.com/watch?v=LZyQVmFzBVk&list=PLmljWRabIwWBxh8V6eIODIz--B802mdLt&index=6

 

 

이제 정리하자면

  • 공분산은 부호를 통해 서로 다른 칼럼 간의 경향성을 보여주며
  • 상관계수는 공분산의 표준화를 통해 상관관계를 보다 명확히 나타내준다. 

4) 공분산을 표준화한 '상관계수' 값의 의미

계산과정을 다시 봐보자

1이라는 것의 의미는?

challenge.tistory.com/manage/newpost/?type=post&returnURL=%2Fmanage%2Fposts%2F

최대값인 상관계수 1이라는 것의 의미는

두 데이터가 서로 동일함을 의미한다. (A칼럼=B칼럼)

why

방법1. 공분산 공식에 대입

: 가장 최고의 상관관계는 두 데이터가 서로 같을 때임. 그리고 그 때의 연산결과가 1이다. (위 그림_연산참조)

~> 상관관계가 1일 때 각 칼럼별 그래프를 그린다면 'y=x' 형태로 그래프가 그려진다.

방법2.

선형대수적 관점에서 두 벡터의 정사영 길이는 서로 방향이 같을 때 최고값 -> 벡터 간 사이각이 0일 때 -> cos0=1

 

마찬가지로 -1이라는 것은

각 칼럼별 값이 부호만 달라서 

y=-x인 것으로 그래프가 그려지는 것 

 

*tip |X|=|Y|로 칼럼별 값이 서로 같을 때,

시그마가 있으나 연산처리가 되어, 그 값은 1혹은 -1이 된다!

 

 

영상캡처 출처 : www.youtube.com/watch?v=j4dIbyBRGPw