데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리
목차
통계학(statistics)
1. t 통계량과 z 통계량의 관계
1.1. 표준오차
표준오차
통계량의 분산이 데이터를 통해서 예측된 값으로 대체되었을 때 그 결과를 표준 오차라고 부름.
1.2. t 검정 통계량
실무에서는 모집단의 표준편차인 σ를 모르는 게 문제
→ 표본 평균의 표준 편차를 표본 오차로 대체하여 사용한다.
→ 이 통계량이 어떠한 분포를 따르는 지를 알아야 함.
1.3. t 분포와 표준정규분포
- 표본 평균의 표준편차가 표준오차로 대체된 t 검정통계량의 경우, 자유도가 n-1인 t 분포를 따른다.
- t 분포 (빨간선)의 경우 표준정규분포 (검정선)보다 더 긴 꼬리를 갖는다.
- 자유도가 높아질수록 t분포는 정규분포와 같아지게 수렴하게 된다.
2. t분포와 스튜던트 정리
2.1. t 분포
확률변수 W와 V가 표준정규분포 N(0, 1)와 자유도 ν인 카이제곱분포를 따르고, 두 확률변수가 독립일 때, 다음의 확률변수 T는 자유도가 ν인 t 분포를 따름
- 평균: E[X] = 0
- 분산: Var[X] = ν/(ν-2)
2.2 스튜던트 정리
평균이 μ이고 분산이 σ²인 정규분포를 따르는 독립확률 변수가 주어졌을 때 다음의 4가지가 성립하는 정리
1. 표본 평균은 정규 분포를 따른다.
2. 표본 평균과 표본 표준 편차는 독립이다.
3. (그림 2)는 자유도 n-1의 카이제곱분포를 따른다.
4. 확률 변수
- 그림3은 자유도 n-1의 스튜던트 t 분포를 따른다.
마무리
카이제곱 분포도 처음이고 자유도도 모호한 상황에서 들어오는 개념들이라 애매할 수 있지만
확실한 것들만 정리
1. 모집단에서 뽑은 표본들은 중심극한 정리에 의해 정규분포를 따름
2. 표본들의 평균은 모집단의 평균이고 표본들의 분산은 표본의 크기 n으로 나눈 놈들임
3. 근데 여기서 생각할 거 모집단의 분산을 알 수가 있냐라는 거
4. 아니다 그래서 표본의 분산을 통해서 추정을 해봐야된다라는 점
5. 여기서 모집단말고 표본의 분산으로 했으니 오차가 발생한 것
6. 그래서 표본의 분산으로 검정통계량을 해봤을 때 이 놈들이 어떤 분포를 따른다라고 했을때
7. 그게 t분포
8. 표본 평균은 당연히 정규분포를 따르게 되고
8.1. 분산은 집단의 분산의 분포인 카이제곱분포를 따른다고 이해
9. 결론은 자유도가 n-1이 된 t분포를 따르게 된다라고 이해.
카이제곱 분포 라는 것이 분산의 특징을 모은 분포라고 넘어가는 것으로 일단
중요한 건 모집단의 분산이 아니라 표본의 분산으로 계산을 했을 시 오차가 있고 이를 자유도가 (n-1)의 t분포를 따르는 것으로 생각하는 것이 best
'데이터 > 통계' 카테고리의 다른 글
[통계학] 회귀분석 개념 정리 (0) | 2023.04.12 |
---|---|
[통계학] 상관계수 기초 내용 정리 (0) | 2023.04.12 |
[통계학] 중심극한정리와 통계적 가설검정 (0) | 2023.04.11 |
[통계학] 표본조사와 표본분포에 대한 내용 정리 (0) | 2023.04.11 |
[통계학] 연속확률분포 및 정규분포 기초 내용 정리 (0) | 2023.04.11 |
댓글