본문 바로가기

데이터/통계12

[통계학] 베이즈 통계 기초 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 베이즈 정리 1.1. 베이즈 정리 만약, P(A)가 0이 아니고, P(A|B)를 알고 있다면, P(B|A) 는 다음과 같이 나타 낼 수 있다. 1.2. 조건부 확률 확률의 곱셈법칙 1.3. 전확률 법칙 (The law of total probability) 표본 공간 S를 분할하는 사건 Bi들을 사용하여표본 공간의 다른 사건 A의 확률 P(A)를 조건부 확률을 사용하여 다음과 같이 나타낼 수 있다. 2. 베이즈 정리를 이용한 사후 확률 계 어느 반도체를 만드는 회사에 2개의 생산 공장 A, B가 있다고 하자. 공장 A는 전체 생산량의 60%를 생산하고, B는 40%를 생산한다. 공장 A에서 생산된.. 2023. 4. 12.
[통계학] 로지스틱 회귀분석 기초 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 일반화 선형 모형 1.1. 선형모형의 일반화 회귀분석 모델을 일반화 시킨 모형 일반화를 시키는 이유? y의 값이 항상 실수를 갖는 것이 아님 특정 경우에 따라서 반응 변수의 값은 양수인 정수 값을 갖는 경우가 있음 반응 변수의 분산이 평균값에 따라서 변할 수 있음. 선형 회귀 모형에서는 불가능 했었음 1.2. 로지스틱 회귀모형 일반화 선형모형의 한 종류로 반응 변수 Y가 두가지의 값(0과 1)을 가질 수 있음. 위 선형회귀 모델을 0과 1로 보내는 방법은 없을까? 로지스틱 함수 2. 베르누이 확률 변수와 선형 모형 베르누이 확률변수는 0 과 1의 값을, 모수인 p는 0과 1사이의 값을 갖는다. 로.. 2023. 4. 12.
[통계학] 최대 우도 추정량에 대한 개념 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 모수를 추정하는 방법 1.1. 모수 추정의 방법 베르누이 확률변수: 성공확률 - p 균일분포 확률변수: 최소값 - a, 최대값 - b 포아송분포 확률변수: 평균값 – lambda 확률변수는 모수에 의하여 그 성질이 결정된다 하지만 우리가 관심있는 표본이 어떠한 분포를 따르는지 모른다. 분포를 안다고 하더라고 모수를 모른다. 최대우도 추정법은 분포를 안다는 가정하에서 모수를 합리적으로 찾는 방법이다. 1.2. 합리적인 모수란? 균일 분포를 따르는 어떤 확률 변수 X를 생각해보자. 이 확률변수는 나올 수 있는 최소값은 0 최댓값은 θ 6.469, 3.942, 6.185, 4.768, 1.361 합리적.. 2023. 4. 12.
[통계학] 회귀분석 개념 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 회귀 모형 1.1. 회귀모형 (Regression model) 반응 변수 Y와 독립 변수 X와의 관계가 다음과 같은 선형이라는 가정을 바탕으로 한다. e는 관찰에 섞여있는 잡음 1.2. 모형의 가정 n개의 데이터가 관측되었다고 한다면, n개의 데이터 순서쌍 (x, y)들은 다음과 같이 모델링 e는 서로 독립을 가정하고 평균은 0 분산은 σ²인 분포를 따를 때 가장 잘 설명하는 선형 모형은? 2. 회귀 직선식의 추정(최소제곱법의 의미) 2.1 회귀직선 데이터와 직선사이의 수직거리 (error)의 제곱의 합을 최소화시키는 직선을 최적 직선 3. 회귀직선식의 검정과 심뢰구간 3.1 결정계수 회귀분석 모.. 2023. 4. 12.
[통계학] 상관계수 기초 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 상관계수 1.1. 상관계수의 정의 두 변수 분포의 선형적인 관계의 정도를 잡아내는 통계지표 1.2. 표본 상관 계수 표본 상관계수의 계산식 두 개의 변수의 값을 관찰 관찰값들을 쌍으로 묶으면 (x, y) i = n개의 관찰값 두 변수의 상관계수 2. 데이터와 상관계수 2.1. 상관계수 특징 상관계수는 두 변수의 선형적인 관계를 측정하는 지표이다. r은 언제나 -1에서 1사이의 값을 갖는다. r>0 인 경우는 양의 상관성을, r 2023. 4. 12.
[통계학] t 검정 이론 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. t 통계량과 z 통계량의 관계 1.1. 표준오차 표준오차 통계량의 분산이 데이터를 통해서 예측된 값으로 대체되었을 때 그 결과를 표준 오차라고 부름. 1.2. t 검정 통계량 실무에서는 모집단의 표준편차인 σ를 모르는 게 문제 → 표본 평균의 표준 편차를 표본 오차로 대체하여 사용한다. → 이 통계량이 어떠한 분포를 따르는 지를 알아야 함. 1.3. t 분포와 표준정규분포 표본 평균의 표준편차가 표준오차로 대체된 t 검정통계량의 경우, 자유도가 n-1인 t 분포를 따른다. t 분포 (빨간선)의 경우 표준정규분포 (검정선)보다 더 긴 꼬리를 갖는다. 자유도가 높아질수록 t분포는 정규분포와 같아지게 .. 2023. 4. 12.
[통계학] 중심극한정리와 통계적 가설검정 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 중심극한정리 1.1. 모집단 분포와 표본 평균의 분포 표본평균의 분포의 모양 표본크기에 따라 표본분포의 모양이 변함 → 확률표본에 변화에 따라 통계량이 달라짐 표본크기를 크게 할수록 𝑋ത의 분산은 작아짐 모집단이 정규분포일 때 표본평균의 분포는 표본 크기에 관계없이 언제나 정규분포 표본평균의 평균은 모집단의 평균과 일치하며, 분산은 모집단의 분산을 n으로 나눈 것과 같음 모집단이 정규분포가 아닐 때 표본평균의 분포는 반드시 정규분포를 따른다고 할 수 없음 표본크기가 커질수록 정규분포에 접근하여 1.2. 중심극한정리 정의 표본크기가 증가함에 따라 표본평균의 분포는 모집단의 분포모양에 관계없이 점점 .. 2023. 4. 11.
[통계학] 표본조사와 표본분포에 대한 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 표본 조사 1.1. 표본조사의 의의 모집단으로부터 표본을 추출하여 표본의 특성을 조사하고 모집단의 특성을 추정하는 것 현실적으로 모집단 전체를 조사하기 어렵기 때문에 표본조사로 모집단을 추론하게 됨 유한모집단과 무한모집단 유한모집단 : 개체수가 한정되어 있는 모집단 어느 도시에서 연간 팔리는 특정 제품의 개수 모집단이 커서 무한 모집단으로 간주될 수 있음 무한모집단 : 무한히 많은 개체로 구성되어 있어 셀 수 없는 모집단 표본조사의 필요성 경제성 신속성 조사 가능성 1.2. 오차의 종류 표본오차(sampling error) 표본추출에서 모수와 통계량 사이의 불일치되는 정도를 의미함 우연적인 요인에.. 2023. 4. 11.