본문 바로가기
데이터/통계

[통계학] 자료와 기술통계학 내용 정리

by dwoi 2023. 4. 10.

데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리

 

목차

     


    통계학(statistics)

    사진: Unsplash 의 Justin Morgan

     


    1. 자료

    1.1. 자료의 의의와 종류

    • 통계분석의 원재료, 변수를 측정함으로써 결과적으로 얻어진 사실의 묶음
    • 대상 또는 상황을 나타내는 상징으로서 수량, 시간, 금액 등을 표현하는 기본 사실들의 집합
    • 자료를 수집할 때 자료의 정확성, 사용가능성에 대해 평가해야 함

    자료의 종류

    • 질적 자료(qualitative data)
      • 질적 변수를 기록한 자료
      •  남•여로 구분되는 성별, 상•중•하로 나타내는 생활 수준 등
    • 양적 자료(quantitative data)
      • 양적 변수를 기록한 자료
      • GNP, 경제성장률, 몸무게, 평점 등과 같이 수치로 표기할 수 있는 것

     

    1.2. 측정과 척도

    • 측정(measurement)
      • 관찰대상의 성질을 파악하기 위해 규칙에 따라 변수에 대해 기술적으로 수치를 부여하는 것
      • 규칙: 어떻게 측정한 것인가를 정하는 것
      •  관찰대상이 갖는 속성의 질적 상태에 따라 값을 부여하는 것
    • 척도(scale)
      • 일정한 규칙을 가지고 관찰대상을 측정하기 위하여 속성을 일련의 기호 또는 숫자로 나타내는 것
      • 질적인 자료를 양적인 자료로 전환시켜주는 도구
      • 예) 온도계, 자, 저울
      • 척도에 의해 관찰대상을 측정하면 속성을 객관화 시킬 수 있으며 본질을 명확하게 파악 가능함
      • 관찰대상을 객관화 시킬 수 있으며, 관찰대상들을 비교할 수 있게 됨

     

    ◆ 척도의 분류

    • 명목척도(nominal scale)
      • 관찰대상을 구분할 목적으로 사용하는 척도
      • 숫자는 양적인 의미는 없으며, 자료가 지닌 속성을 상징적으로 차별화하는데 사용됨
      • 측정대상을 속성에 따라 상호 베타적이고 포괄적인 범주로 구분하는데 이용함
      • 예) 남-1, 여-2
    • 서열척도(ordinal scale)
      • 관찰대상이 지닌 속성에 따라 순위를 결정
        • 순서적 특성만을 나타내는 것으로, 척도 사이의 차이가 정확한 양적 의미를 나타내지 않음
        • 예) 좋아하는 운동 1위 야구, 2위 축구
        • 정량화하기 어려운 소비자의 선호도 같은 것을 측정하는데 사용됨
      • 등간척도(interval scale)
        • 관찰치의 속성 차이를 양적 차이로 측정하기 위해 균일한 간격으로 분할하여 측정하는 척도
        • 대표적인 등간척도: 리커트의 5점 척도, 7점 척도
        • 측정대상의 위치에 따라 수치를 부여할 때, 숫자상의 차이는 산술적으로 의미가 있음
      • 비율척도(ratio scale)
        • 각 척도의 특수성에 비율 개념이 첨가된 것
        • 연구조사에서 가장 많이 사용되는 척도
        • 절대적 0을 출발점으로 하여 측정대상이 지니고 있는 속성을 양적 차이로 표현함
        • 서열성, 등간성, 비율성의 세 속성을 모두 가지고 있으므로 산술적 계산이 가능함
        • 비율척도에서 값이 0인 경우에 이것은 측정대상이 아무것도 가지고 있지 않음을 의미


    • 명목척도와 서열척도로 측정된 자료는 비정량적 자료 또는 질적 자료라고 함
    • 등간척도와 비율척도로 측정된 자료는 정량적 자료 또는 양적 자료라고 함
    • 질적 자료에 적용가능한 방법은 비모수통계분석
    • 양적 자료에 적용가능한 방법은 모수통통계분석
    • 주로 사용되는 통계기법은 모수통계분석
    • 양적 자료를 대상으로 표본의 특성치인 통계량을 이용하여 모집단의 모수 추정 혹은 검정

     

                        특성
    척도
    범주 순위 통간격 절대영점
    명목척도 0 X X X
    서열척도 0 0 X X
    등간적도 0 0 0 X
    비율척도 0 0 0 0

     


     

    2. 도수분포표(frequency distribution table)

    1) 도수분포표

    • 많은 자료를 간단하게 요약하여 기술하는 방법
    • 연구조사에서 통계분석을 위한 기초단계로 이용
    • 계급(class): 관찰대상을 분류하는 범주
    • 도수(frequency): 각 계급에 속하는 수
    • 변수의 성질(양적 변수 or 질적 변수)에 따라 계급이 다르게 작성됨

    2) 양적 자료

    정의

    • 몸무게, 나이 등과 같이 숫자로 파악되는 양적 변수를 관찰하여 기록한 자료

    계급의 수

    • 총 관찰치의 수를 10으로 나눈 수로 정함
    • 계급의 수가 4보다 적거나 20개가 넘지 않도록 함

    계급의 구간

    • (최대값 – 최소값)/계급의 수

    작성 시 유의사항

    • 계급의 수와 계급의 구간을 결정하는 방식은 유일하지 않음
    • 모든 자료를 빠짐없이 포함해야 함
    • 극단값(outlier)가 있으면, 제외하고 나머지 자료에 대하여 계급구간을 동일하게 설정
    • 극단값에 대해서는 별도의 구간을 만들어
    • 계급에 나타나 있는 값은 중복되지 않아야 하며, 해당되는 빈도수가 없는 계급값도 반드시 등장해야 함

    3) 질적 자료

    • 성별, 종교, 출신지역 등과 같이 범주(category)로 표현된 자료

    4) 누적도수분포표(cumulative frequency distribution)

    • 구간내에 있는 빈도수보다는 특정값 이상 또는 이하가 되는 수에 대해 알고 싶을 때 사용됨
    • 도수분포의 빈도수를 누적하여 나타냄

     


     

    3. 중심위치

    3.0. 중심위치

    정의

    • 관찰된 자료들이 어디에 집중되어 있는지 나타냄

    대표값

    • 산술평균(arithmetic mean) : 극단값에 영향을 받음
    • 최빈값(mode) : 극단값에 영향을 거의 받지 않음
    • 중앙값(median : 극단적인 값에 전혀 영향 받지 않음

     

     


     

    4. 산포도

    4.0. 산포도

    정의

    • 각 관측치가 중심위치에서 얼마나 떨어져 있는지 측정 

    종류

    • 범위
    • 평균편차
    • 분산
    • 표준편차

     

    • 모집단의 분산과 표준편차 N으로 나눔
    • 표본의 분산과 표준편차는 n-1로 나눔 (자유도라는 개념이 적용됨.)

     


     

    5. 비대칭도

    5.1. 비대칭도

    정의

    • 분포의 모양이 중앙위치에서 왼쪽 혹은 오른쪽으로 얼마나 치우쳐 있는지를 나타냄
    • 왜도(skewness)라고도 부름

    피어슨의 비대칭계수(Pearson's coefficient)

    • 왜도를 측정하기 위해 사용되는 계수

     

    6. 첨도

    정의

    • 평균값을 중심으로 분포의 모양이 얼마나 뾰족한가를 나타냄  


     

     

    댓글