본문 바로가기
데이터/통계

[통계학] t 검정 이론 내용 정리

by dwoi 2023. 4. 12.

데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리

 

목차

     


    통계학(statistics)

    사진: Unsplash 의 Justin Morgan

     


    1. t 통계량과 z 통계량의 관계

    1.1. 표준오차

    표준오차

    통계량의 분산이 데이터를 통해서 예측된 값으로 대체되었을 때 그 결과를 표준 오차라고 부름.

    1.2. t 검정 통계량

    실무에서는 모집단의 표준편차인 σ를 모르는 게 문제

    표본 평균의 표준 편차를 표본 오차로 대체하여 사용한다. 

    → 이 통계량이 어떠한 분포를 따르는 지를 알아야 함.

    1.3. t 분포와 표준정규분포

    t 분포 : red 정규분포 : black

    • 표본 평균의 표준편차가 표준오차로 대체된 t 검정통계량의 경우, 자유도가 n-1인 t 분포를 따른다.
    • t 분포 (빨간선)의 경우 표준정규분포 (검정선)보다 더 긴 꼬리를 갖는다.
    • 자유도가 높아질수록 t분포는 정규분포와 같아지게 수렴하게 된다.

     

    2. t분포와 스튜던트 정리

    2.1. t 분포

    확률변수 W와 V가 표준정규분포 N(0, 1)와 자유도 ν인 카이제곱분포를 따르고, 두 확률변수가 독립일 때, 다음의 확률변수 T는 자유도가 ν인 t 분포를 따름

    • 평균: E[X] = 0
    • 분산: Var[X] = ν/(ν-2)

    2.2 스튜던트 정리

    평균이 μ이고 분산이 σ²인 정규분포를 따르는 독립확률 변수가 주어졌을 때 다음의 4가지가 성립하는 정리

    1. 표본 평균은 정규 분포를 따른다.

    2. 표본 평균과 표본 표준 편차는 독립이다.

    3. (그림 2)는 자유도 n-1의 카이제곱분포를 따른다.

    4. 확률 변수

    • 그림3은 자유도 n-1의 스튜던트 t 분포를 따른다.

     

    그림 1
    그림 2
    그림3

     

    마무리

    카이제곱 분포도 처음이고 자유도도 모호한 상황에서 들어오는 개념들이라 애매할 수 있지만

    확실한 것들만 정리

    1. 모집단에서 뽑은 표본들은 중심극한 정리에 의해 정규분포를 따름

    2. 표본들의 평균은 모집단의 평균이고 표본들의 분산은 표본의 크기 n으로 나눈 놈들임

    3. 근데 여기서 생각할 거 모집단의 분산을 알 수가 있냐라는 거

    4. 아니다 그래서 표본의 분산을 통해서 추정을 해봐야된다라는 점

    5. 여기서 모집단말고 표본의 분산으로 했으니 오차가 발생한 것

    6. 그래서 표본의 분산으로 검정통계량을 해봤을 때 이 놈들이 어떤 분포를 따른다라고 했을때

    7. 그게 t분포

    8. 표본 평균은 당연히 정규분포를 따르게 되고

    8.1. 분산은 집단의 분산의 분포인 카이제곱분포를 따른다고 이해

    9. 결론은 자유도가 n-1이 된 t분포를 따르게 된다라고 이해.

     

    카이제곱 분포 라는 것이 분산의 특징을 모은 분포라고 넘어가는 것으로 일단

     

    중요한 건 모집단의 분산이 아니라 표본의 분산으로 계산을 했을 시 오차가 있고 이를 자유도가 (n-1)의 t분포를 따르는 것으로 생각하는 것이 best 

     

     


     

     

    댓글