데이터 분석 모델링을 위해 여러가지 데이터 모델들에 대해서 학습하고 정리한 내용임을 밝힘.
목차
데이터 모델링
회귀 모델 (Regression Models)
- 회귀 모델이란, 머신러닝 모델 중에서도 쉽고 널리 활용되는 모델이며 가격, 수량, 주가 등 연속적인 값을 갖는 변수를 예측하는데 활용됨
- 분석 모형이 예측하고자는 목표 값을 종속(dependent)변수 또는 타겟(Target)변수 라고 하며, 이를 예측하기 위해 사용하는 변수를 독립(independent) 변수 또는 설명(explanatory) 변수라고 함
정리하자면
→ 어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균
1. 단순 선형 회귀 모델
0.a. 회귀 모델 (Regression Models)
- 회귀 모델이란, 머신러닝 모델 중에서도 쉽고 널리 활용되는 모델이며 가격, 수량, 주가 등 연속적인 값을 갖는 변수를 예측하는데 활용됨
- 분석 모형이 예측하고자는 목표 값을 종속(dependent)변수 또는 타겟(Target)변수 라고 하며, 이를 예측하기 위해 사용하는 변수를 독립(independent) 변수 또는 설명(explanatory) 변수라고 함
정리하자면
→ 어떤 자료에 대해서 그 값에 영향을 주는 조건을 고려하여 구한 평균
0.b. 선형 모델 (Linear Models)
- 선형 모델이란 회귀 계수를 선형 결합으로 표현할 수 있는 모델을 의미함
- 선형 결합이란, 각 항에 상수를 곱한 항을 더한 형태의 표현식을 의미
1.1. 단순 선형 회귀 모델
종속변수(y) 를 설명하기 위해 하나의 독립변수(x)를 이용하여
선형 회귀 모델을 만드는 방법을 단순 선형 회귀 모델이라 함
Y=α+βX+ε
절편 계수 x=0일 때 y의 기댓값을 의미한다.
기울기 계수 : x가 한 단위 증가할 때 변화하는 y의 기댓값 크기를 의미
2. 다중 선형 회귀 모델
2.1. 다중 선형 회귀 모델
독립변수 1개로 종속변수를 설명하기에는 한계가 있으며, 다른 주요한 독립변수들이 있을 수 있음
복수개의 독립 변수를 이용하여 종속변수를 선형적으로 예측하는 모델을 다중 선형 회귀 모델이라 함
2.2. 다중 선형 회귀 모델 추정
- 최종적으로 우리가 하고싶은 것은, 여러 개의 독립변수로 종속변수를 가장 잘 설명할수 있는 선형식을 추정하는 것
- 여기서 ‘회귀 모델을 추정한다’ 는 의미는 선형식에서 설정한 가중치 파라미터를 추정하는 것을 말함
- 회귀계수는 각 독립 변수 x1이 하나의 단위만큼 변할 때 종속 변수인 y가 변하는 양을 나타냄. (다른 독립변수는 고정되어있다 가정함.)
행렬과 벡터의 곱으로 구할 수 있음.
2.2.1. 다중 선형 회귀 모델 가정
- 선형성 : 종속변수와 독립변수 간의 선형 관계를 가져야 함.
- 등분산성 : 각 독립변수에 대한 종속변수 값의 변동성은 독립변수 값에 상관없이 동일
- 독립성 : 독립 변수는 서로 독립적 서로 영향을 끼치지 않음.
- 정규성 : 오차는 표쥰 정규 분포를 따름
- 추정하는 방법은 ‘최소제곱법(Least Square Method)’를 이용함
2.3. 최소제곱법
최소제곱법이란, 회귀 결과인 예측값과 종속변수의 측정값의 차이인 잔차(residual) 또는 오차(error) 제곱의 합이 최소가 되는 회귀 모형을 찾는 것을 의미함
2.4. 다중 선형 회귀 추정 통계량 이해
- 다중 선형 회귀 모델 추정을 얼마나 잘 했느냐를 판단하는 통계수치를 일반적으로 F-통계량을 이용함.
- F-통계량은 회귀제곱평균(Mean Squared Regression;MSR)과 잔차제곱평균(Mean Squared Error)로 표현함
- F-통계량이 클수록 회귀 모델 추정이 잘되었음을 의미함
용어
- 회귀제곱평균(MSR) : 회귀로 설명할 수 있는 편차를 의미하며 이는 평균으로 말하는 것과 회귀로 예측해서 말하는 것의 차이가 얼마나 있느냐를 의미함
- 잔차제곱평균(MSE) : 회귀로도 설명할 수 없는 잔차를 의미하며, 회귀로 예측해도 좁힐 수 없는 관측값과의 차이가 얼마인지를 나타냄.
- 회귀로도 좁힐 수 없는 예측 오차 대비 회귀로 인해 좁혀진 예측 오차가 얼마나 큰가를 표현한 수치가 F-통계량이며, 클수록 회귀 모델이 유의미함
2.5. 다중 선형 회귀 모델의 설명력
회귀 모델의 적합 정도를 판단하기 위해 보는 통계량으로, 추정한 모델이 전체 데이터를
얼마나 잘 설명하냐에 대한 척도
R²: 가장 많이 사용되는 척도로, 1에 가까울수록 모델이 데이터를 잘 설명한다는
의미이며, 전체 편차 중 회귀로 설명 가능한 편차가 몇 %인지 계산함
Adjusted R² : 독립변수(설명변수)가 많을 경우 R²( 값이 커지는 단점을 보완하기 위해 독립변수의 수로 페널티를 부여
3. 회귀 모형 평가 지표
해결하려는 문제에 따라 머신러닝 모델의 종류가 달라지며, 상황에 맞는 올바른 평가지표를 사용하는 것은 매우 중요함.
- 머신러닝 회귀 모델에서 주로 사용하는 평가지표는 아래와 같음
- Mean Absolute Error (MAE)
- Mean Sqaured Error (MSE)
- Mean Absolute Percentage Error(MAPE)
- 등등..
마무리
수학적으로 다가오는 것을 일단 직관적으로 이해하는 식으로 이해해서 결국 어떤 걸 알고 싶냐에 좀 더 포커스를 맞추고 이해를 하는 방향으로 다가갈 것.
댓글