데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리
목차
통계학(statistics)
1. 확률이론
1.1. 확률이론
정의
- 어떤 사건 또는 사상이 일어날 가능성
동시발생개념(equally likely concept)
- 상호배타적인 사들이 모두 동등하게 발생할 수 있다고 생각하는 것
- 주사위를 던져서 3이 나올 확률은 총 6개의 사상(표본공간) 중의 하나 = 1/6
- 실제로 주사위를 던져보면 3이라는 숫자가 정확히 여섯 번 중 한 번 나오기 쉽지 않음
상대빈도개념(relative frequency concept)
- 실험을 수없이 반복하였을 때, 전체 실험횟수에서 어떤 사상이 발생할 가능성
- n번의 시행횟수에서 어떤 사건이 일어난 횟수를 r이라고 하면 r/n이 그 사건의 확률값
주관적 확률개념(subjective probability concept)
- 어떤 사건이 일어날 확률을 주관적으로 믿고 있는 정도
1.2. 확률의 종류
교차분석표
- 수집된 자료를 기준에 따라 표로 정리한 것
결합확률(joint probability)
- 교차분석표에서 두 사건이 동시에 일어날 확률
한계확률(marginal probability)
- 결합확률을 행 또는 열로 합한 값
- 확률표의 가장자리에 위치에 있기 때문에 한계 확률이라 부름
조건(부)확률(conditional probability)
- B사건이 발생한 조건하에서 A가 발생할 확률(the probability of A given B)
- B사건이 발생한 조건하에서 찬성이냐 반대냐
- 확률을 합하면 1
2. 확률변수 (random variable)
2.1. 확률변수
정의
- 실험 또는 관찰에서 일정한 확률을 가지고 발생하는 사건에 대하여 값을 부여하는 변수
- 통계적 사건(event)의 결과를 실수(real number)의 값으로 변환한 것
의미
- 변수의 값이 시행마다 다르게 나올 수 있다는(random) 가정에 토대
- 확률변수 𝑋가 𝑝의 확률로 𝑥의 값을 가진다: 𝑃 ( 𝑋 = 𝑥 ) = 𝑝
- 동전을 2회 던져서 앞면이 나오는 횟수를 X라고 하면
- 𝑃 (𝑋 = 2) = 0.25
- 𝑃(𝑋 = 1) = 0.5
- 𝑃(𝑋 = 0) = 0.25
2.2. 확률분포 (probability distribution)
정의
- 확률변수 𝑋가 가질 수 있는 특정한 값 𝑥와 𝑥에 대응하는 확률을 표로 나타낸 것
X | 0 | 1 | 2 |
P(X) | 0.25 | 0.5 | 0.25 |
의미
- 확률변수 𝑋의 값이 나오는 확률이 어떻게 분포하고 있는지 설명
- 추정을 위해서는 변수값이 일정한 확률분포(패턴)를 가진다는 가정이 필요
분류
- 이산확률분포(discrete probability distribution)
- 이산확률변수(discrete random variable)를 나타내는 분포
- 연속확률분포(continuous probability distribution)
- 연속확률변수(continuous random variable)를 나타내는 분포
3. 이산확률분포
3.1. 이산확률분포의 의의
함수의 필요성
- 확률변수의 각각의 값에 대응하는 확률을 일일이 나열하는 것은 번거로운 일
확률질량함수(probability mass function)
- 이산확률변수 𝑋가 특정한 값을 취할 확률: 𝑃(𝑋 = 𝑥) = 𝑓(𝑥)
확률질량함수(probability mass function)
- 모든 x 값에 대하여 𝑓(𝑥) ≥ 0
- ∑ 𝑓(𝑥) = 1
3.2. 이산확률분포의 추정
평균
- 확률변수의 값과 그에 대응되는, 즉 가중치인 확률을 각각 곱한 후에 합한 값
분산과 표준편차
- 분산: 확률변수의 값이 평균으로부터 벗어난 편차의 제곱을 가중평균하여 구함
3.3. 이항 분포 (binomial distribution)
3.3.1. 베르누이 시행(Bernoulli process)
정의
- 성공과 실패의 두 사상으로 구별되는 시행
- 예1) 동전 던지기: 앞, 뒤
베르누이 시행의 조건
- 확률변수 𝑋의 값은 0 혹은 1임. 𝑥 = 1의 사상을 성공, 𝑥 = 0의 사상을 실패라고 함
- 각 시행에서 성공할 확률(𝑃(𝑋 = 1))은 일정하며, 성공할 확률과 실패할 확률의 합은 1
- 여러 번에 걸친 베르누이 시행은 각각 독립임
3.3.2. 이항분포의 의의
이항실험
- 𝑛회의 독립적인 베르누이 시행
- 𝑛번의 시행에서 성공의 횟수와 실패의 횟수: 이항확률변수
- 이항확률변수의 확률 분포 : 이항확률분포(binomial probability distribution)
n이 커지면 커질수록 정규분포에 가까워짐.
평균 = nπ
분산 = nπ(1-π)
3.4. 포아송 분포 (Poisson distribution)
개념
- 이항분포에서 𝑛이 크고 𝑝가 아주 작은 경우에 나타나는 분포
- 예1) 제품 또는 서비스의 불량
포아송분포의 조건
- 한 단위시간내에서 사건 발생 수는 다른 단위시간에서의 사건 발생 수와 서로 독립
- 극히 작은 단위시간에서 둘 또는 그 이상의 사건이 발생할 확률은 0
- 작은 단위시간에서 사건이 발생할 확률은 작음 -> 확률은 구간의 길이에 비례함
마무리
개념의 앞부분이 간단하다고 해서 대충 쌓지 말고 단단한 지반을 형성하는 것이 중요
'데이터 > 통계' 카테고리의 다른 글
[통계학] 중심극한정리와 통계적 가설검정 (0) | 2023.04.11 |
---|---|
[통계학] 표본조사와 표본분포에 대한 내용 정리 (0) | 2023.04.11 |
[통계학] 연속확률분포 및 정규분포 기초 내용 정리 (0) | 2023.04.11 |
[통계학] 자료와 기술통계학 내용 정리 (0) | 2023.04.10 |
[통계학] 통계학의 기초 내용 정리 (0) | 2023.04.10 |
댓글