T-value / F-value에 대한 본질적 통찰

[ 전제 ]

T-value 와 F-value는 말 그대로 Value 값이다.

즉 어떤 모집단이나 표본집단의 Variable이 아니라는 점을 기억하고 출발하자.

[ OO-value의 본질적 의미 ]

T-value와 F-value 는 집단 간의 차이를 표준화 시킨 값이다.

즉 A라는 표본집단, B라는 표본집단이 있을 때 (모집단이 아니라는 점도 눈여겨 보자)

두 집단 혹은 두 집단 이상이 '수치적으로 어느정도 차이가 있는지'를 나타낸 Value 인 것이다.

ㄴ 집단의 갯수에 따라 계산법이 조금 상이해지는 것일 뿐 그 본질적인 의미는 같다.

[ -value 계산을 위한 필수 개념 ]

1. 통계에서는 집단을 대표하는 검정통계값을 '평균'으로 사용한다.

2. 표본통계값은 항상 오차를 갖고 있는 불확실한 값이다.

[계산방법]

A집단과 B집단의 평균차이 / 각 집단이 갖고 있는 불확실도

[계산의 의미]

1. 분모에 위치하는 불확실도는 각 표본집단의 표본평균 값에 대한 불확실도의 총합을 말한다.

2. 같은 단위로 나눠 줌으로서 단위를 없애고 표준화된 값으로 사용할 수 있다. (자유도에 따라)

[검정의 의미]

이렇게 표준화된 t-value를 자유도에 따라 수학자들이 다 계산해 놓았다.

T-분포 , F-분포는 공식에 따라 그려진 확률곡선이다.

왜 확률곡선인가?

우선 T-분포는 하나의 모집단에서 공식에 따라 그린 확률곡선이다.

앞에서 언급했지만,

각각 검정통계값(X1,X2,S1등)이 서로 다른 모집단이 아닌, 하나의 같은 모집단에서 나온 표본집단의 통계값이라고 가정하기 때문이다

그 말은 OO-value의 값이 클수록 각각의 표본집단들이 모집단의 각 극단치에서 모두 표집이 됐다는 건데,

멀쩡히 개체수가 훨씬 많은 평균치 근처에서 표집되지 않고 이렇게 될 경우는 확률적으로 가능성이 적다.

따라서 어느정도 유의수준에 이를 정도의 극악의 확률로 표집되었을 확률을 보여주면

우리는 아예 그 표본집단은 서로 다른 모집단에서 나왔다고 확률적으로 판단하는 것이다.

idea

F-value의 의미와 분산분석 - 공돌이의 수학정리노트

angeloyeo.github.io

꿈 있는 다락방