본문 바로가기
데이터/통계

[통계학] 통계학의 기초 내용 정리

by dwoi 2023. 4. 10.

데이터 분석에 기본이 되는 통계학에 대한 기초를 공부하는 내용을 정리

 

목차

     


    통계학(statistics)

    사진: Unsplash 의 Justin Morgan

     


    1. 통계학

    1.1. 통계학의 정의

    • 자료를 수집 정리하여 분석하는 기술을 개발하고 응용하는 방법론적인 학문
    • 자료분석에 기초하여 결론을 제시하는 학문

    통계학의 필요성

    • 불확실한 상황에서 합리적인 의사결정을 내리는데 사용됨
    • 한 번의 관찰로 현상을 이해하거나 파악하기 어려움 → 통계학을 사용해야 하는 이유

    통계학의 활용
    • 통계학의 원리 및 표본조사 기법 등은 경영, 정치, 경제, 의학, 공학 등에서 널리 사용됨
    • 산업에서는 품질관리, 수요예측 등 소비자의 구매동기, 광고효과 분석 등에 통계학을 사용

    • 예1) 정당의 정책에 대한 지지도를 조사하기 위한 표본조사
    • 예2) 제조기업의 불량품 검출을 위한 표본조사

     

    1.2. 통계학의 기본 용어

    • 자료

    자료의 성격
    • 자료: 개인, 사물 또는 거래에 관한 기본적인 사실들의 집합
    • 수량, 시간, 금액, 비율, 이름, 장소 등을 포함
    • 자료를 의미있는 형태로 전환한 것이 정보(information) – 가치있는 자료

    • 모집단

    • 연구자의 조사대상이 되는 전체 집단

    • 표본

    • 조사대상이 되는 모집단의 일부 측정치
    • 표본이 필요한 이유: 모집단의 모든 대상을 일일이 조사하는 것이 불가능
    • 예시 1) 회사가 생산하는 전구의 수명을 조사
    • 예시 2) 대통령 선거 전에 특정 후보의 지지율 조사

    • 표본추출

    • 표본추출(Sampling): 표본선택 과정
    • 주로 편향되지 않도록 표본을 추출하는 것을 목표로 함

    기술통계학/추리통계학

    • 기술통계학

    • 통계자료를 적절한 방법으로 요약하고 특성을 기술하는 것
    • 그림, 도표로 자료의 특성을 나타냄
    • 평균이나 분산과 같은 측정치를 사용함

    • 추리통계학

    • 모집단으로부터 얻어진 표본을 이용하여 표본의 특성치를 계산
    • 계산된 수치를 기초로 하여 모집단의 특성을 추론
    • 이러한 추정과정을 통계적 추론(statistical inference)라고 함

     

    예시) TV 프로그램의 시청률을 조사하는 경우
    • (기술통계학) 지역마다 1,000명씩 표본추출하여 전국의 평균 시청률 계산
    • (추리통계학) 표본의 특성치를 이용하여 전체 가구의 시청률을 추론하여 일반화

    • 두 가지 방법론은 상호 보완적인 관계
    • 통계적 분석은 자료를 수집 정리하여 특성치를 얻고 이를 바탕으로 모집단을 규명

     


     

    2. 연구 절차

    1) 문제의 제기

    • 실질적인 중요성과 적합성을 고려하여 문제를 인식하는 것
    • 예비적인 조사를 통하여 연구과제에 대한 지식을 얻음

    2) 연구의 설계

    • 연구과제에 관련된 정보의 원천이나 종류를 명확히 밝히고 자료 수집 및 분석방법을 계획함

    3) 자료의 수집

    • 실제 자료를 모으는 단계
    • 한 곳에서 얻을 수 있는 간단한 내용 // 수년 동안 전국적으로 얻어야 하는 자료

    4) 결과의 분석 및 해석

    • 통계패키지(SPSS)를 이용하여 분석하고 변수들의 연관성을 조사
    • 연구목적에 맞추어 발견한 내용을 해석한 후 보고서 작성

     


     

    3. 변수

    3.1. 변수

    1) 관찰 대상 혹은 개체

    2) 요인(factor) : 연구자가 특별히 관심을 갖는 특성

    3) 변수 (variable) : 요인을 나타내기 위해 사용되는 속성

    • 변수는 계량화가 가능한 것이어야 함
      • 단일변량통계분석(univariate statistical analysis): 하나의 변수를 다루는 통계분석
      • 다변량통계분석(multivariate statistical analysis): 변수가 여러 개인 통계분석

     

    3.2. 변수의 분류

    양적 변수(quantitative variable)
    • 연구자의 관심 대상이 되는 속성을 수치로 나타낼 수 있는 것, 예) 1인당 GNP, 몸무게 등
    • 이산변수(discrete variable): 정수값만 갖는 변수, 예) 사람수, 물건 개수
    • 연속변수(continuous variable): 어떠한 값이라도 취할 수 있는 것 → 실수 형태 예) 무게, 길이, 속도 등


    질적변수(qualitive variable)
    • 속성을 수치가 아닌 범주 혹은 기호로 나타낼 수 있는 것, 예) 성별, 직업, 학력 등

     

     


     

    마무리

    파이썬으로 데이터에 대한 개념을 통계로 좀 더 보완하고자 함.

     

     

     

    댓글