데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리
목차
통계학(statistics)
1. 연속확률분포
1.1. 연속확률분포의 의의
연속확률변수 확률의 특징
- 이산확률변수와 달리 어떤 한 점에 대응되는 확률을 구할 수 없음
- 특정 구간에 대하여 확률을 구할 수 있음
확률밀도함수
- 확률 : 밀도함수와 x축 사이의 구간 너비
이산확률 변수와 연속확률변수의 비교
- 이산확률 변수 : a부터 b까지의 확률 = 구간 사이의 확률의 총합
- 연속확률 변수 : a부터 b까지의 확률 = 확률밀도함수를 a부터 b까지로 적분
연속확률변수의 확률밀도함수의 성질
- 특정한 값 𝑥가 발생할 확률, 즉 𝑃(𝑋 = 𝑥) = 0
- 모든 𝑥의 값에 대하여 𝑓(𝑥) >= 0
- 확률밀도함수 아래에 있는 전체의 면적은 1
2. 정규분포(normal distribution) - ★
2.1. 정규분포의 의의
정의
- 가장 널리 쓰이며 가장 중요한 분포 (표본을 통한 통계적 추론방법에 중요한 역할)
- 모든 분포의 근사점이 되는 분포
- 표준화(standardization) 가능것
특징
- 평균을 중심으로 좌우 대칭 종모양
- 전체 면적 = 1
- 범위는 -무한대에서 + 무한대까지
- 평균이 같은데 분산이 작으면 작을수록 첨도가 높음.
- 평균이 달라지면 가운데 점이 달라짐
2.2. 표준정규분포(standard normal distribution)
필요성
- 확률밀도함수는 𝑥와 𝑓(𝑥)의 관계를 알려주지만 확률 계산은 쉽지 않음
- 정규분포를 표준화하면 확률 계산이 쉬워지고 서로 다른 분포의 확률 비교도 간단해짐
표준화된 정규분포 확률변수: 𝑍 ~ 𝑁(0,1)
• 𝑍 =𝑋−𝜇 / 𝜎
• 𝑋 = 관찰치, 𝜇= 분포의 평균, 𝜎= 분포의 표준편차
정규분포를 평균이 0과 분산을 1로 표준화시킴.
마무리
개념의 앞부분이 간단하다고 해서 대충 쌓지 말고 단단한 지반을 형성하는 것이 중요
정규 분포는 아주 중요한 개념이니 헷갈리지 말
'데이터 > 통계' 카테고리의 다른 글
[통계학] 중심극한정리와 통계적 가설검정 (0) | 2023.04.11 |
---|---|
[통계학] 표본조사와 표본분포에 대한 내용 정리 (0) | 2023.04.11 |
[통계학] 확률 분포 이론 정리 (0) | 2023.04.11 |
[통계학] 자료와 기술통계학 내용 정리 (0) | 2023.04.10 |
[통계학] 통계학의 기초 내용 정리 (0) | 2023.04.10 |
댓글