본문 바로가기
데이터/통계

[통계학] 표본조사와 표본분포에 대한 내용 정리

by dwoi 2023. 4. 11.

데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리

 

목차

     


    통계학(statistics)

    사진: Unsplash 의 Justin Morgan

     


    1. 표본 조사

    1.1. 표본조사의 의의

    • 모집단으로부터 표본을 추출하여 표본의 특성을 조사하고 모집단의 특성을 추정하는 것
    • 현실적으로 모집단 전체를 조사하기 어렵기 때문에 표본조사로 모집단을 추론하게 됨

    유한모집단과 무한모집단

    • 유한모집단 : 개체수가 한정되어 있는 모집단
      • 어느 도시에서 연간 팔리는 특정 제품의 개수
      • 모집단이 커서 무한 모집단으로 간주될 수 있음
    • 무한모집단 : 무한히 많은 개체로 구성되어 있어 셀 수 없는 모집단

     

    표본조사의 필요성

    • 경제성
    • 신속성
    • 조사 가능성

     

    1.2. 오차의 종류

    표본오차(sampling error)

    • 표본추출에서 모수와 통계량 사이의 불일치되는 정도를 의미함
    • 우연적인 요인에 의하여 전혀 통제될 수 없는 상황에서 발생함
    • 우연오차(chance error) 혹은 확률오차(random error)라고도 함

    • 오차의 크기는 신뢰성을 나타냄
      • 표본오차는 표본의 크기가 클수록 작아짐 → 표본의 크기와 신뢰성은 비례

     

    비표본오차(nonsampling error)

    • 표본으로 추출된 대상을 실제로 관찰 〮 측정할 때 생기는 오차
    • 응답자의 이해 부족, 부정확한 설문 작성, 자료의 수집 〮 처리 과정에서의 잘못
    • 추출된 표본이 대상 모집단을 대표하지 못함: bias
    • 비표본오차는 표본의 크기를 크게해도 반드시 줄어들지는 않음

     

    Bias

    • 주로 그릇된 표본설계 혹은 표본 추출에서 기인함

     


    2. 표본 추출 방법

    2.1. 확률추출 (probability sampling)

    의미

    • 모집단에서 일정한 확률에 입각하여 표본을 추출하는 방법
    • 무작위성(randomness)이 확보되어야 하므로 무작위추출(random sampling)이라고도 함

    1. 단순확률추출(simple random sampling)
      • 모집단을 구성하는 개체들이 선택될 기회가 동등한 가운데 표본을 만드는 것
      • 유한모집단에서는 복원추출의 경우 중복 가능성이 있기 때문에 비복원추출법을 많이 사용함
      • 연구자들에게 그리 용이하지 않으며, 비경제적인 방법
    2. 체계적 추출(systematic sampling)
      • 모집단의 구성개체가 무작위로 배열된 상태에서 표본을 추출하는 방법
      • 100명의 학생 중에 10명을 뽑을 때 6번으로 끝나는 학생만을 뽑는 방법
        • 처음 숫자 6번을 무작위방법으로 추출했다면 100명의 학생은 처음부터 동일한 선택 확률
    3. 층별추출(stratified sampling)
      • 모집단을 일정한 수준에 의하여 두 개 이상의 동질적인 소집단으로 분류한 후, 소집단으로부터 단순무작위추출을 하는 방법
      • 400명의 학생을 상대로 층별 추출을 하는 상황
        • 학년을 기준으로 학년마다 100명씩 무작위로 추출하면 됨
        • 학년, 성별을 기준으로 한다면, 매 학년에 남〮여 각 50명씩 추출하면 됨
    4. 군집추출(cluster sampling)
      • 모집단의 구성 개체를 몇 개의 군집으로 구별한 다음에 무작위로 필요한 군집을 선택함
      • 추출된 집단에 대해 일부 또는 전수조사를 수행 (시의 동을 몇 개 골라서 조사)

     

    4.2. 비확률추출

    비확률추출의 필요성

    • 확률추출에서는 표본추출 오차를 줄이기 위해 무작위추출법을 사용
      • 표본이 모집단을 대표한다고 생각할 수 있음
    • 특정 연구에서는 전체 모집단이 이용 불가능한 경우가 있음 (소수의 사건이 중요한 경우)

    비확률추출 의미

    • 추출된 표본에 대해 오차를 명백히 추정하는 통계처리가 불가능한 추출

    비확률추출이 사용되는 경우

    • 연구의 목적이 모수추정이 아니라 특수한 경우를 분석하는 경우
    • 시간과 경비를 줄여야 할 때
    • 연구자의 확률추출 실력이 부족할 때

    1. 편의추출(convenience sampling)
      • 연구자가 자유롭게 연구대상을 표본에 포함시키는 것
      • 시간과 경비가 절약되며 새로운 아이디어를 시험하거나 아이디어를 얻을 때 사용됨
      • 연구 초기에 유용하며, 의견을 얻다가 지나치게 편향되어 있다고 생각하면 중단함
    2. 판단추출(judgement sampling)
      • 연구목적에 맞는 사항을 충족시킬 수 있다는 판단에 따라 모집단을 대표하는 표본을 선택
      • 회사에서 신제품테스트를 할 때 종업원에 대해 먼저 테스트 실시
      • 종업원이 회사에 대한 정보도 많고 신제품에 호의적이기 때문에 사전 테스트로 적합
    3. 할당추출(quota sampling)
      • 표본이 모집단을 대표하도록 하는 경우에 사용됨
      • 모집단이 갖는 모든 속성이 선택되는 표본에 비례적으로 적절하게 포함되도록 하는 방법
      • 대학의 남〮여학생의 비율이 7:3일 때 -> 표본비율을 7:3 으로 하여 추출하는 법

     


     

    3. 표본분포

    3.1. 표본분포의 의의

    확률표본

    • 서로 독립적이고 같은 분포를 따르는 확률변수의 분포
    • 예) 통조림의 무게를 조사하기 위해 통조림 50개를 표본으로 선택
      • 이러한 확률변수를 이용하여 통조림의 무게에 대한 분포를 알 수 있음

     

    표본분포

    • 모집단에서 표본을 모두(k개) 뽑았을 때, 그 확률표본 𝑋1, 𝑋2, … , 𝑋𝑘 의 분포
    •  모집단이 따르는 확률밀도함수를 f(x)라고 했을 때, 𝑋1, 𝑋2, … , 𝑋𝑘는 f(x)를 따르는 서로 독립적인 확률변수

     

    표본분포의 의의

    • 통계조사에서는 k개의 확률표본을 이용하여 모집단분포를 예상(추론)함
    •  표본평균 𝑋ത로 모평균 𝜇를, 표본분산 𝑠²로 모분산 𝜎²을 추정 (추리통계학)

     

    3.2. 표본평균의 분포

    모집단에서 일정한 크기로 표본을 k개 뽑아서 각 표본의 평균을 계산하였을 때

     


     

    마무리

     

    데이터를 뽑을 때 표본을 뽑고 그에 대한 데이터를 분석해야 하니

    표본의 성질은 중요!


     

     

    댓글