데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리
목차
통계학(statistics)
1. 자료
1.1. 자료의 의의와 종류
- 통계분석의 원재료, 변수를 측정함으로써 결과적으로 얻어진 사실의 묶음
- 대상 또는 상황을 나타내는 상징으로서 수량, 시간, 금액 등을 표현하는 기본 사실들의 집합
- 자료를 수집할 때 자료의 정확성, 사용가능성에 대해 평가해야 함
자료의 종류
- 질적 자료(qualitative data)
- 질적 변수를 기록한 자료
- 남•여로 구분되는 성별, 상•중•하로 나타내는 생활 수준 등
- 양적 자료(quantitative data)
- 양적 변수를 기록한 자료
- GNP, 경제성장률, 몸무게, 평점 등과 같이 수치로 표기할 수 있는 것
1.2. 측정과 척도
- 측정(measurement)
- 관찰대상의 성질을 파악하기 위해 규칙에 따라 변수에 대해 기술적으로 수치를 부여하는 것
- 규칙: 어떻게 측정한 것인가를 정하는 것
- 관찰대상이 갖는 속성의 질적 상태에 따라 값을 부여하는 것
- 척도(scale)
- 일정한 규칙을 가지고 관찰대상을 측정하기 위하여 속성을 일련의 기호 또는 숫자로 나타내는 것
- 질적인 자료를 양적인 자료로 전환시켜주는 도구
- 예) 온도계, 자, 저울
- 척도에 의해 관찰대상을 측정하면 속성을 객관화 시킬 수 있으며 본질을 명확하게 파악 가능함
- 관찰대상을 객관화 시킬 수 있으며, 관찰대상들을 비교할 수 있게 됨
◆ 척도의 분류
- 명목척도(nominal scale)
- 관찰대상을 구분할 목적으로 사용하는 척도
- 숫자는 양적인 의미는 없으며, 자료가 지닌 속성을 상징적으로 차별화하는데 사용됨
- 측정대상을 속성에 따라 상호 베타적이고 포괄적인 범주로 구분하는데 이용함
- 예) 남-1, 여-2
- 서열척도(ordinal scale)
- 관찰대상이 지닌 속성에 따라 순위를 결정
- 순서적 특성만을 나타내는 것으로, 척도 사이의 차이가 정확한 양적 의미를 나타내지 않음
- 예) 좋아하는 운동 1위 야구, 2위 축구
- 정량화하기 어려운 소비자의 선호도 같은 것을 측정하는데 사용됨
- 등간척도(interval scale)
- 관찰치의 속성 차이를 양적 차이로 측정하기 위해 균일한 간격으로 분할하여 측정하는 척도
- 대표적인 등간척도: 리커트의 5점 척도, 7점 척도
- 측정대상의 위치에 따라 수치를 부여할 때, 숫자상의 차이는 산술적으로 의미가 있음
- 비율척도(ratio scale)
- 각 척도의 특수성에 비율 개념이 첨가된 것
- 연구조사에서 가장 많이 사용되는 척도
- 절대적 0을 출발점으로 하여 측정대상이 지니고 있는 속성을 양적 차이로 표현함
- 서열성, 등간성, 비율성의 세 속성을 모두 가지고 있으므로 산술적 계산이 가능함
- 비율척도에서 값이 0인 경우에 이것은 측정대상이 아무것도 가지고 있지 않음을 의미
- 관찰대상이 지닌 속성에 따라 순위를 결정
• 명목척도와 서열척도로 측정된 자료는 비정량적 자료 또는 질적 자료라고 함
• 등간척도와 비율척도로 측정된 자료는 정량적 자료 또는 양적 자료라고 함
• 질적 자료에 적용가능한 방법은 비모수통계분석
• 양적 자료에 적용가능한 방법은 모수통통계분석
• 주로 사용되는 통계기법은 모수통계분석
• 양적 자료를 대상으로 표본의 특성치인 통계량을 이용하여 모집단의 모수 추정 혹은 검정
특성 척도 |
범주 | 순위 | 통간격 | 절대영점 |
명목척도 | 0 | X | X | X |
서열척도 | 0 | 0 | X | X |
등간적도 | 0 | 0 | 0 | X |
비율척도 | 0 | 0 | 0 | 0 |
2. 도수분포표(frequency distribution table)
1) 도수분포표
• 많은 자료를 간단하게 요약하여 기술하는 방법
• 연구조사에서 통계분석을 위한 기초단계로 이용
• 계급(class): 관찰대상을 분류하는 범주
• 도수(frequency): 각 계급에 속하는 수
• 변수의 성질(양적 변수 or 질적 변수)에 따라 계급이 다르게 작성됨
2) 양적 자료
정의
- 몸무게, 나이 등과 같이 숫자로 파악되는 양적 변수를 관찰하여 기록한 자료
계급의 수
- 총 관찰치의 수를 10으로 나눈 수로 정함
- 계급의 수가 4보다 적거나 20개가 넘지 않도록 함
계급의 구간
- (최대값 – 최소값)/계급의 수
작성 시 유의사항
- 계급의 수와 계급의 구간을 결정하는 방식은 유일하지 않음
- 모든 자료를 빠짐없이 포함해야 함
- 극단값(outlier)가 있으면, 제외하고 나머지 자료에 대하여 계급구간을 동일하게 설정
- 극단값에 대해서는 별도의 구간을 만들어
- 계급에 나타나 있는 값은 중복되지 않아야 하며, 해당되는 빈도수가 없는 계급값도 반드시 등장해야 함
3) 질적 자료
- 성별, 종교, 출신지역 등과 같이 범주(category)로 표현된 자료
4) 누적도수분포표(cumulative frequency distribution)
- 구간내에 있는 빈도수보다는 특정값 이상 또는 이하가 되는 수에 대해 알고 싶을 때 사용됨
- 도수분포의 빈도수를 누적하여 나타냄
3. 중심위치
3.0. 중심위치
정의
- 관찰된 자료들이 어디에 집중되어 있는지 나타냄
대표값
- 산술평균(arithmetic mean) : 극단값에 영향을 받음
- 최빈값(mode) : 극단값에 영향을 거의 받지 않음
- 중앙값(median : 극단적인 값에 전혀 영향 받지 않음
4. 산포도
4.0. 산포도
정의
- 각 관측치가 중심위치에서 얼마나 떨어져 있는지 측정
종류
- 범위
- 평균편차
- 분산
- 표준편차
- 모집단의 분산과 표준편차 N으로 나눔
- 표본의 분산과 표준편차는 n-1로 나눔 (자유도라는 개념이 적용됨.)
5. 비대칭도
5.1. 비대칭도
정의
- 분포의 모양이 중앙위치에서 왼쪽 혹은 오른쪽으로 얼마나 치우쳐 있는지를 나타냄
- 왜도(skewness)라고도 부름
피어슨의 비대칭계수(Pearson's coefficient)
- 왜도를 측정하기 위해 사용되는 계수
6. 첨도
정의
- 평균값을 중심으로 분포의 모양이 얼마나 뾰족한가를 나타냄
'데이터 > 통계' 카테고리의 다른 글
[통계학] 중심극한정리와 통계적 가설검정 (0) | 2023.04.11 |
---|---|
[통계학] 표본조사와 표본분포에 대한 내용 정리 (0) | 2023.04.11 |
[통계학] 연속확률분포 및 정규분포 기초 내용 정리 (0) | 2023.04.11 |
[통계학] 확률 분포 이론 정리 (0) | 2023.04.11 |
[통계학] 통계학의 기초 내용 정리 (0) | 2023.04.10 |
댓글