데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리
목차
통계학(statistics)
1. 표본 조사
1.1. 표본조사의 의의
- 모집단으로부터 표본을 추출하여 표본의 특성을 조사하고 모집단의 특성을 추정하는 것
- 현실적으로 모집단 전체를 조사하기 어렵기 때문에 표본조사로 모집단을 추론하게 됨
유한모집단과 무한모집단
- 유한모집단 : 개체수가 한정되어 있는 모집단
- 어느 도시에서 연간 팔리는 특정 제품의 개수
- 모집단이 커서 무한 모집단으로 간주될 수 있음
- 무한모집단 : 무한히 많은 개체로 구성되어 있어 셀 수 없는 모집단
표본조사의 필요성
- 경제성
- 신속성
- 조사 가능성
1.2. 오차의 종류
표본오차(sampling error)
- 표본추출에서 모수와 통계량 사이의 불일치되는 정도를 의미함
- 우연적인 요인에 의하여 전혀 통제될 수 없는 상황에서 발생함
- 우연오차(chance error) 혹은 확률오차(random error)라고도 함
- 오차의 크기는 신뢰성을 나타냄
- 표본오차는 표본의 크기가 클수록 작아짐 → 표본의 크기와 신뢰성은 비례
비표본오차(nonsampling error)
- 표본으로 추출된 대상을 실제로 관찰 〮 측정할 때 생기는 오차
- 응답자의 이해 부족, 부정확한 설문 작성, 자료의 수집 〮 처리 과정에서의 잘못
- 추출된 표본이 대상 모집단을 대표하지 못함: bias
- 비표본오차는 표본의 크기를 크게해도 반드시 줄어들지는 않음
Bias
- 주로 그릇된 표본설계 혹은 표본 추출에서 기인함
2. 표본 추출 방법
2.1. 확률추출 (probability sampling)
의미
- 모집단에서 일정한 확률에 입각하여 표본을 추출하는 방법
- 무작위성(randomness)이 확보되어야 하므로 무작위추출(random sampling)이라고도 함
- 단순확률추출(simple random sampling)
- 모집단을 구성하는 개체들이 선택될 기회가 동등한 가운데 표본을 만드는 것
- 유한모집단에서는 복원추출의 경우 중복 가능성이 있기 때문에 비복원추출법을 많이 사용함
- 연구자들에게 그리 용이하지 않으며, 비경제적인 방법
- 체계적 추출(systematic sampling)
- 모집단의 구성개체가 무작위로 배열된 상태에서 표본을 추출하는 방법
- 100명의 학생 중에 10명을 뽑을 때 6번으로 끝나는 학생만을 뽑는 방법
- 처음 숫자 6번을 무작위방법으로 추출했다면 100명의 학생은 처음부터 동일한 선택 확률
- 층별추출(stratified sampling)
- 모집단을 일정한 수준에 의하여 두 개 이상의 동질적인 소집단으로 분류한 후, 소집단으로부터 단순무작위추출을 하는 방법
- 400명의 학생을 상대로 층별 추출을 하는 상황
- 학년을 기준으로 학년마다 100명씩 무작위로 추출하면 됨
- 학년, 성별을 기준으로 한다면, 매 학년에 남〮여 각 50명씩 추출하면 됨
- 군집추출(cluster sampling)
- 모집단의 구성 개체를 몇 개의 군집으로 구별한 다음에 무작위로 필요한 군집을 선택함
- 추출된 집단에 대해 일부 또는 전수조사를 수행 (시의 동을 몇 개 골라서 조사)
4.2. 비확률추출
비확률추출의 필요성
- 확률추출에서는 표본추출 오차를 줄이기 위해 무작위추출법을 사용
- 표본이 모집단을 대표한다고 생각할 수 있음
- 특정 연구에서는 전체 모집단이 이용 불가능한 경우가 있음 (소수의 사건이 중요한 경우)
비확률추출 의미
- 추출된 표본에 대해 오차를 명백히 추정하는 통계처리가 불가능한 추출
비확률추출이 사용되는 경우
- 연구의 목적이 모수추정이 아니라 특수한 경우를 분석하는 경우
- 시간과 경비를 줄여야 할 때
- 연구자의 확률추출 실력이 부족할 때
- 편의추출(convenience sampling)
- 연구자가 자유롭게 연구대상을 표본에 포함시키는 것
- 시간과 경비가 절약되며 새로운 아이디어를 시험하거나 아이디어를 얻을 때 사용됨
- 연구 초기에 유용하며, 의견을 얻다가 지나치게 편향되어 있다고 생각하면 중단함
- 판단추출(judgement sampling)
- 연구목적에 맞는 사항을 충족시킬 수 있다는 판단에 따라 모집단을 대표하는 표본을 선택
- 회사에서 신제품테스트를 할 때 종업원에 대해 먼저 테스트 실시
- 종업원이 회사에 대한 정보도 많고 신제품에 호의적이기 때문에 사전 테스트로 적합
- 할당추출(quota sampling)
- 표본이 모집단을 대표하도록 하는 경우에 사용됨
- 모집단이 갖는 모든 속성이 선택되는 표본에 비례적으로 적절하게 포함되도록 하는 방법
- 대학의 남〮여학생의 비율이 7:3일 때 -> 표본비율을 7:3 으로 하여 추출하는 법
3. 표본분포
3.1. 표본분포의 의의
확률표본
- 서로 독립적이고 같은 분포를 따르는 확률변수의 분포
- 예) 통조림의 무게를 조사하기 위해 통조림 50개를 표본으로 선택
- 이러한 확률변수를 이용하여 통조림의 무게에 대한 분포를 알 수 있음
표본분포
- 모집단에서 표본을 모두(k개) 뽑았을 때, 그 확률표본 𝑋1, 𝑋2, … , 𝑋𝑘 의 분포
- 모집단이 따르는 확률밀도함수를 f(x)라고 했을 때, 𝑋1, 𝑋2, … , 𝑋𝑘는 f(x)를 따르는 서로 독립적인 확률변수
표본분포의 의의
- 통계조사에서는 k개의 확률표본을 이용하여 모집단분포를 예상(추론)함
- 표본평균 𝑋ത로 모평균 𝜇를, 표본분산 𝑠²로 모분산 𝜎²을 추정 (추리통계학)
3.2. 표본평균의 분포
모집단에서 일정한 크기로 표본을 k개 뽑아서 각 표본의 평균을 계산하였을 때
마무리
데이터를 뽑을 때 표본을 뽑고 그에 대한 데이터를 분석해야 하니
표본의 성질은 중요!
'데이터 > 통계' 카테고리의 다른 글
[통계학] t 검정 이론 내용 정리 (0) | 2023.04.12 |
---|---|
[통계학] 중심극한정리와 통계적 가설검정 (0) | 2023.04.11 |
[통계학] 연속확률분포 및 정규분포 기초 내용 정리 (0) | 2023.04.11 |
[통계학] 확률 분포 이론 정리 (0) | 2023.04.11 |
[통계학] 자료와 기술통계학 내용 정리 (0) | 2023.04.10 |
댓글