본문 바로가기
데이터/통계

[통계학] 확률 분포 이론 정리

by dwoi 2023. 4. 11.

데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리

 

목차

     


    통계학(statistics)

    사진: Unsplash 의 Justin Morgan

     


    1. 확률이론

    1.1. 확률이론

    정의

    • 어떤 사건 또는 사상이 일어날 가능성

    동시발생개념(equally likely concept)

    • 상호배타적인 사들이 모두 동등하게 발생할 수 있다고 생각하는 것
    • 주사위를 던져서 3이 나올 확률은 총 6개의 사상(표본공간) 중의 하나 = 1/6
    • 실제로 주사위를 던져보면 3이라는 숫자가 정확히 여섯 번 중 한 번 나오기 쉽지 않음

    상대빈도개념(relative frequency concept)

    • 실험을 수없이 반복하였을 때, 전체 실험횟수에서 어떤 사상이 발생할 가능성
    • n번의 시행횟수에서 어떤 사건이 일어난 횟수를 r이라고 하면 r/n이 그 사건의 확률값

    주관적 확률개념(subjective probability concept)

    • 어떤 사건이 일어날 확률을 주관적으로 믿고 있는 정도

     

    1.2. 확률의 종류

    교차분석표

    • 수집된 자료를 기준에 따라 표로 정리한 것

    결합확률(joint probability)

    • 교차분석표에서 두 사건이 동시에 일어날 확률

     

    한계확률(marginal probability)

    • 결합확률을 행 또는 열로 합한 값
    • 확률표의 가장자리에 위치에 있기 때문에 한계 확률이라 부름

     

    조건(부)확률(conditional probability)

    • B사건이 발생한 조건하에서 A가 발생할 확률(the probability of A given B)
      • B사건이 발생한 조건하에서 찬성이냐 반대냐
    • 확률을 합하면 1

     


     

    2. 확률변수 (random variable)

    2.1. 확률변수

    정의

    • 실험 또는 관찰에서 일정한 확률을 가지고 발생하는 사건에 대하여 값을 부여하는 변수
    • 통계적 사건(event)의 결과를 실수(real number)의 값으로 변환한 것

    의미

    • 변수의 값이 시행마다 다르게 나올 수 있다는(random) 가정에 토대
    • 확률변수 𝑋가 𝑝의 확률로 𝑥의 값을 가진다: 𝑃 ( 𝑋 = 𝑥 ) = 𝑝
    • 동전을 2회 던져서 앞면이 나오는 횟수를 X라고 하면
      • 𝑃 (𝑋 = 2) = 0.25
      • 𝑃(𝑋 = 1) = 0.5
      • 𝑃(𝑋 = 0) = 0.25

     

    2.2. 확률분포 (probability distribution)

    정의

    • 확률변수 𝑋가 가질 수 있는 특정한 값 𝑥와 𝑥에 대응하는 확률을 표로 나타낸 것
    X 0 1 2
    P(X) 0.25 0.5 0.25

    의미

    • 확률변수 𝑋의 값이 나오는 확률이 어떻게 분포하고 있는지 설명
    • 추정을 위해서는 변수값이 일정한 확률분포(패턴)를 가진다는 가정이 필요

    분류

    • 이산확률분포(discrete probability distribution)
      • 이산확률변수(discrete random variable)를 나타내는 분포
    • 연속확률분포(continuous probability distribution)
      • 연속확률변수(continuous random variable)를 나타내는 분포

     


     

    3. 이산확률분포

    3.1. 이산확률분포의 의의

    함수의 필요성

    • 확률변수의 각각의 값에 대응하는 확률을 일일이 나열하는 것은 번거로운 일

    확률질량함수(probability mass function)

    • 이산확률변수 𝑋가 특정한 값을 취할 확률: 𝑃(𝑋 = 𝑥) = 𝑓(𝑥)

    확률질량함수(probability mass function)

    • 모든 x 값에 대하여 𝑓(𝑥) ≥ 0
    • 𝑓(𝑥)  = 1

     

    3.2. 이산확률분포의 추정

    평균

    • 확률변수의 값과 그에 대응되는, 즉 가중치인 확률을 각각 곱한 후에 합한 값

     

    분산과 표준편차

    • 분산: 확률변수의 값이 평균으로부터 벗어난 편차의 제곱을 가중평균하여 구함

    3.3. 이항 분포 (binomial distribution)

     

    3.3.1. 베르누이 시행(Bernoulli process)

    정의

    • 성공과 실패의 두 사상으로 구별되는 시행
    •  예1) 동전 던지기: 앞, 뒤

     

    베르누이 시행의 조건

    • 확률변수 𝑋의 값은 0 혹은 1임. 𝑥 = 1의 사상을 성공, 𝑥 = 0의 사상을 실패라고 함
    • 각 시행에서 성공할 확률(𝑃(𝑋 = 1))은 일정하며, 성공할 확률과 실패할 확률의 합은 1
    • 여러 번에 걸친 베르누이 시행은 각각 독립임

     

    3.3.2. 이항분포의 의의

    이항실험

    • 𝑛회의 독립적인 베르누이 시행
    • 𝑛번의 시행에서 성공의 횟수와 실패의 횟수: 이항확률변수
    • 이항확률변수의 확률 분포 : 이항확률분포(binomial probability distribution)

    n이 커지면 커질수록 정규분포에 가까워짐.

     

    평균 = nπ

    분산 = nπ(1-π)

    3.4. 포아송 분포 (Poisson distribution)

    개념

    • 이항분포에서 𝑛이 크고 𝑝가 아주 작은 경우에 나타나는 분포
    • 예1) 제품 또는 서비스의 불량

    포아송분포의 조건

    • 한 단위시간내에서 사건 발생 수는 다른 단위시간에서의 사건 발생 수와 서로 독립
    • 극히 작은 단위시간에서 둘 또는 그 이상의 사건이 발생할 확률은 0
    • 작은 단위시간에서 사건이 발생할 확률은 작음 -> 확률은 구간의 길이에 비례함

    마무리

    개념의 앞부분이 간단하다고 해서 대충 쌓지 말고 단단한 지반을 형성하는 것이 중요

     

    댓글