데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리
목차
통계학(statistics)
1. 통계학
1.1. 통계학의 정의
• 자료를 수집 정리하여 분석하는 기술을 개발하고 응용하는 방법론적인 학문
• 자료분석에 기초하여 결론을 제시하는 학문
통계학의 필요성
• 불확실한 상황에서 합리적인 의사결정을 내리는데 사용됨
• 한 번의 관찰로 현상을 이해하거나 파악하기 어려움 → 통계학을 사용해야 하는 이유
통계학의 활용
• 통계학의 원리 및 표본조사 기법 등은 경영, 정치, 경제, 의학, 공학 등에서 널리 사용됨
• 산업에서는 품질관리, 수요예측 등 소비자의 구매동기, 광고효과 분석 등에 통계학을 사용
- 예1) 정당의 정책에 대한 지지도를 조사하기 위한 표본조사
- 예2) 제조기업의 불량품 검출을 위한 표본조사
1.2. 통계학의 기본 용어
- 자료
자료의 성격
• 자료: 개인, 사물 또는 거래에 관한 기본적인 사실들의 집합
• 수량, 시간, 금액, 비율, 이름, 장소 등을 포함
• 자료를 의미있는 형태로 전환한 것이 정보(information) – 가치있는 자료
- 모집단
• 연구자의 조사대상이 되는 전체 집단
- 표본
• 조사대상이 되는 모집단의 일부 측정치
• 표본이 필요한 이유: 모집단의 모든 대상을 일일이 조사하는 것이 불가능
• 예시 1) 회사가 생산하는 전구의 수명을 조사
• 예시 2) 대통령 선거 전에 특정 후보의 지지율 조사
- 표본추출
• 표본추출(Sampling): 표본선택 과정
• 주로 편향되지 않도록 표본을 추출하는 것을 목표로 함
기술통계학/추리통계학
- 기술통계학
• 통계자료를 적절한 방법으로 요약하고 특성을 기술하는 것
• 그림, 도표로 자료의 특성을 나타냄
• 평균이나 분산과 같은 측정치를 사용함
- 추리통계학
• 모집단으로부터 얻어진 표본을 이용하여 표본의 특성치를 계산
• 계산된 수치를 기초로 하여 모집단의 특성을 추론
• 이러한 추정과정을 통계적 추론(statistical inference)라고 함
예시) TV 프로그램의 시청률을 조사하는 경우
• (기술통계학) 지역마다 1,000명씩 표본추출하여 전국의 평균 시청률 계산
• (추리통계학) 표본의 특성치를 이용하여 전체 가구의 시청률을 추론하여 일반화
• 두 가지 방법론은 상호 보완적인 관계
• 통계적 분석은 자료를 수집 정리하여 특성치를 얻고 이를 바탕으로 모집단을 규명
2. 연구 절차
1) 문제의 제기
• 실질적인 중요성과 적합성을 고려하여 문제를 인식하는 것
• 예비적인 조사를 통하여 연구과제에 대한 지식을 얻음
2) 연구의 설계
• 연구과제에 관련된 정보의 원천이나 종류를 명확히 밝히고 자료 수집 및 분석방법을 계획함
3) 자료의 수집
• 실제 자료를 모으는 단계
• 한 곳에서 얻을 수 있는 간단한 내용 // 수년 동안 전국적으로 얻어야 하는 자료
4) 결과의 분석 및 해석
• 통계패키지(SPSS)를 이용하여 분석하고 변수들의 연관성을 조사
• 연구목적에 맞추어 발견한 내용을 해석한 후 보고서 작성
3. 변수
3.1. 변수
1) 관찰 대상 혹은 개체
2) 요인(factor) : 연구자가 특별히 관심을 갖는 특성
3) 변수 (variable) : 요인을 나타내기 위해 사용되는 속성
- 변수는 계량화가 가능한 것이어야 함
• 단일변량통계분석(univariate statistical analysis): 하나의 변수를 다루는 통계분석
• 다변량통계분석(multivariate statistical analysis): 변수가 여러 개인 통계분석
3.2. 변수의 분류
양적 변수(quantitative variable)
• 연구자의 관심 대상이 되는 속성을 수치로 나타낼 수 있는 것, 예) 1인당 GNP, 몸무게 등
• 이산변수(discrete variable): 정수값만 갖는 변수, 예) 사람수, 물건 개수
• 연속변수(continuous variable): 어떠한 값이라도 취할 수 있는 것 → 실수 형태 예) 무게, 길이, 속도 등
질적변수(qualitive variable)
• 속성을 수치가 아닌 범주 혹은 기호로 나타낼 수 있는 것, 예) 성별, 직업, 학력 등
마무리
파이썬으로 데이터에 대한 개념을 통계로 좀 더 보완하고자 함.
'데이터 > 통계' 카테고리의 다른 글
[통계학] 중심극한정리와 통계적 가설검정 (0) | 2023.04.11 |
---|---|
[통계학] 표본조사와 표본분포에 대한 내용 정리 (0) | 2023.04.11 |
[통계학] 연속확률분포 및 정규분포 기초 내용 정리 (0) | 2023.04.11 |
[통계학] 확률 분포 이론 정리 (0) | 2023.04.11 |
[통계학] 자료와 기술통계학 내용 정리 (0) | 2023.04.10 |
댓글