데이터29 [통계학] 중심극한정리와 통계적 가설검정 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 중심극한정리 1.1. 모집단 분포와 표본 평균의 분포 표본평균의 분포의 모양 표본크기에 따라 표본분포의 모양이 변함 → 확률표본에 변화에 따라 통계량이 달라짐 표본크기를 크게 할수록 𝑋ത의 분산은 작아짐 모집단이 정규분포일 때 표본평균의 분포는 표본 크기에 관계없이 언제나 정규분포 표본평균의 평균은 모집단의 평균과 일치하며, 분산은 모집단의 분산을 n으로 나눈 것과 같음 모집단이 정규분포가 아닐 때 표본평균의 분포는 반드시 정규분포를 따른다고 할 수 없음 표본크기가 커질수록 정규분포에 접근하여 1.2. 중심극한정리 정의 표본크기가 증가함에 따라 표본평균의 분포는 모집단의 분포모양에 관계없이 점점 .. 2023. 4. 11. [통계학] 표본조사와 표본분포에 대한 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 표본 조사 1.1. 표본조사의 의의 모집단으로부터 표본을 추출하여 표본의 특성을 조사하고 모집단의 특성을 추정하는 것 현실적으로 모집단 전체를 조사하기 어렵기 때문에 표본조사로 모집단을 추론하게 됨 유한모집단과 무한모집단 유한모집단 : 개체수가 한정되어 있는 모집단 어느 도시에서 연간 팔리는 특정 제품의 개수 모집단이 커서 무한 모집단으로 간주될 수 있음 무한모집단 : 무한히 많은 개체로 구성되어 있어 셀 수 없는 모집단 표본조사의 필요성 경제성 신속성 조사 가능성 1.2. 오차의 종류 표본오차(sampling error) 표본추출에서 모수와 통계량 사이의 불일치되는 정도를 의미함 우연적인 요인에.. 2023. 4. 11. [통계학] 연속확률분포 및 정규분포 기초 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 연속확률분포 1.1. 연속확률분포의 의의 연속확률변수 확률의 특징 이산확률변수와 달리 어떤 한 점에 대응되는 확률을 구할 수 없음 특정 구간에 대하여 확률을 구할 수 있음 확률밀도함수 확률 : 밀도함수와 x축 사이의 구간 너비 이산확률 변수와 연속확률변수의 비교 이산확률 변수 : a부터 b까지의 확률 = 구간 사이의 확률의 총합 연속확률 변수 : a부터 b까지의 확률 = 확률밀도함수를 a부터 b까지로 적분 연속확률변수의 확률밀도함수의 성질 특정한 값 𝑥가 발생할 확률, 즉 𝑃(𝑋 = 𝑥) = 0 모든 𝑥의 값에 대하여 𝑓(𝑥) >= 0 확률밀도함수 아래에 있는 전체의 면적은 1 2. 정규분포(no.. 2023. 4. 11. [통계학] 확률 분포 이론 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 확률이론 1.1. 확률이론 정의 어떤 사건 또는 사상이 일어날 가능성 동시발생개념(equally likely concept) 상호배타적인 사들이 모두 동등하게 발생할 수 있다고 생각하는 것 주사위를 던져서 3이 나올 확률은 총 6개의 사상(표본공간) 중의 하나 = 1/6 실제로 주사위를 던져보면 3이라는 숫자가 정확히 여섯 번 중 한 번 나오기 쉽지 않음 상대빈도개념(relative frequency concept) 실험을 수없이 반복하였을 때, 전체 실험횟수에서 어떤 사상이 발생할 가능성 n번의 시행횟수에서 어떤 사건이 일어난 횟수를 r이라고 하면 r/n이 그 사건의 확률값 주관적 확률개념(su.. 2023. 4. 11. [통계학] 자료와 기술통계학 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 자료 1.1. 자료의 의의와 종류 통계분석의 원재료, 변수를 측정함으로써 결과적으로 얻어진 사실의 묶음 대상 또는 상황을 나타내는 상징으로서 수량, 시간, 금액 등을 표현하는 기본 사실들의 집합 자료를 수집할 때 자료의 정확성, 사용가능성에 대해 평가해야 함 자료의 종류 질적 자료(qualitative data) 질적 변수를 기록한 자료 남•여로 구분되는 성별, 상•중•하로 나타내는 생활 수준 등 양적 자료(quantitative data) 양적 변수를 기록한 자료 GNP, 경제성장률, 몸무게, 평점 등과 같이 수치로 표기할 수 있는 것 1.2. 측정과 척도 측정(measurement) 관찰대상의.. 2023. 4. 10. [통계학] 통계학의 기초 내용 정리 데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리 목차 통계학(statistics) 1. 통계학 1.1. 통계학의 정의 • 자료를 수집 정리하여 분석하는 기술을 개발하고 응용하는 방법론적인 학문 • 자료분석에 기초하여 결론을 제시하는 학문 통계학의 필요성 • 불확실한 상황에서 합리적인 의사결정을 내리는데 사용됨 • 한 번의 관찰로 현상을 이해하거나 파악하기 어려움 → 통계학을 사용해야 하는 이유 통계학의 활용 • 통계학의 원리 및 표본조사 기법 등은 경영, 정치, 경제, 의학, 공학 등에서 널리 사용됨 • 산업에서는 품질관리, 수요예측 등 소비자의 구매동기, 광고효과 분석 등에 통계학을 사용 예1) 정당의 정책에 대한 지지도를 조사하기 위한 표본조사 예2) 제조기업의 불량품 검출을 위.. 2023. 4. 10. [데이터 모델링 및 평가] 군집 분석 및 앙상블 방법론 내용 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 1. 군집 분석 1.1. 군집분석이란 데이터셋의 관측값이 갖고 있는 여러 속성을 분석하여 서로 비슷한 특징을 갖는 관측값끼리 같은 군집으로 묶는 모델 대표적인 비지도 학습 모델이며, 관측값을 몇 개의 집단으로 나눈다는 점에서 분류 모델과 흡사하지만, 정답이 없는 상에서 데이터 자체의 유사성만을 기준으로 하는 점에서 차이가 있음 1.2. K-Means 모델 대표적인 군집 분석 모델로, 데이터 간의 유사성을 측정하는 기준으로 각 클러스터의 중심까지의 거리를 이용함. K개의 클러스터 중심에서 거리.. 2023. 4. 3. [데이터 모델링 및 평가] 의사결정 나무(Decision Tree) 내용 정리 데이터 분석 모델링과 머신러닝에 대한 기본 개념에 대해 학습하고 이를 정리한 내용 목차 데이터 모델링 데이터 분석은 유의미한 정보를 파악하여 의사결정에 도움을 주기 위해 데이터 수집, 가공, 모델링하는 과정을 의미함 1. 정보이론 기초 잘 일어나지 않는 사건(unlikely event)은 자주 발생하는 사건보다 정보량이 많다(informative) 자주 발생하는 사건은 낮은 정보량을 가짐. 발생이 보장된 사건은 그 내용에 상관없이 전혀 정보가 없다는 것을 의미 예시자주 발생하는 사건 : ‘아침에 해가 뜬다’는 메세지로 보낼 필요가 없을 정도로 정보 가치가 없음잘 일어나지 않는 사건 : 오늘 아침에 일식이 있었다’는 메세지는 정보량 측면에서 매우 중요한 사건 1.1. 정보와 엔트로피 정보 : 확률 변수에 .. 2023. 4. 3. 이전 1 2 3 4 다음