티스토리 뷰

선형 회귀 분석에서 분석 데이터의 적합성 여부를 항상 고려해야 한다. 

적합성 여부를 확인하는 방법 중 먼저 "결정계수(Coefficient of Determination, R-Square, R-제곱값, R2, R^2)"를  알아보자~

결정계수는 "수식이 얼마나 X와 Y의 관계를 잘 표현하고 있는지" 나타내는 기준이다.  


결정계수 (r-square)

일반적으로 결정계수는 0과 1사이의 값을 갖는데, 관계가 높을 수록 1에 가까운 값을 갖는다. 

즉, 0에 가까워질수록, 수식에 데이터 분포를 제대로 표현하지 못하는 것이며, 

1에 가까워지면 모든 데이터가 해당 수식에 접근한다는 것을 나타낸다. 


결정계수를 나타내는 수식을 보면 다음과 같다. 



SSR, SST, SSE?? 처음 접할 경우, 용어를 모르기 때문에 어렵게 느껴질 것이다. 

자세히 풀어서 설명할 것이니 끝까지 한번 읽어보기 바란다. 


모집단과 표본집단

만약 대통령 선거의 예측을 위한 여론조사를 한다고 생각해보자. 

전체 유권자를 대상으로 여론조사를 할 수 없기 때문에, 연령별 또는 지역별로 대상을 선정해서 여론조사를 하게 된다. 

이 경우, 전체 유권자를 대상으로 하는 것을 '모집단', 연령별 또는 지역별로 대상을 선정하는 것을 '표본집단'이라 한다. 


회귀 모형에서도, 전체 데이터 (모집단)를 대상으로 할 수 없는 경우가 대부분이므로 

선거 여론조사와 마찬가지로 표본집단을 대상으로 회귀식을 만들게 된다. 



즉, 선형 회귀식에서 모집단 전체에 대한 α와 β를 찾는 것이 실제로 불가능하기 때문에, 

α와 β를 추정하기 위해 표본으로부터 구한 자료를 사용하는 것이다. 



이제 Y값은 모집단과 표본집단에서 가져온 두 가지 경우가 있게 된다. 

보통 모집단에서 가져온 Y값을 '측정치', 표본집단에서 가져온 Y값을 '예측치'라고 한다. 



SSR, SSE, SST

예측치와 실제값 사이의 차이를 편차라고 한다. 

그리고 분산을 구하듯이 이 차이를 제곱해서 합하면 변동을 알 수 있다. 

(제곱하지 않고 더하면 0이 되기 때문에 분산과 같이 편차를 계산할 때는 보통 제곱해서 더하게 된다.)


먼저 예측치와 실제값 사이의 편차를 생각할 수 있다. 

표본집단에서 예측치를 구할 수 있고, 실제값은 추후 알게 되므로 이 편차는 구할 수 있다. 

그래서 '설명된 변동'이라고도 하며, 회귀 제곱의 합 즉, SSR(Sum of Square Regression)이라 한다. 


그리고 표본을 활용함으로써 모집단의 측정치와 표본집단의 예측치의 차이가 발생할 수 있다. 

측정치와 예측치 사이의 편차를 구한 것이 SSE(Sum of Square Error)가 된다. 


만약 SSE가 0이면, 표본의 회귀식이 모집단의 모든 내용이 표본 회귀식 내에 있다고 할 수 있다. 

결정계수 공식에 SSE를 0으로 대입해보면, 무조건 1이 나오게 된다. 

그러므로 결정계수가 1이면 모든 데이터가 해당 수식에 접근하다는 것이다.


마지막으로 SST(Sum of Square Total)은 모집단의 측정치와 실제값 사이의 편차이다. 

이것은 SSR과 SSE의 합한 것과 동일하다. 


이를 정리하면 다음과 같다. 



SSR: Sum of Square Regression, 회귀 제곱의 합, 회귀변동, 설명된 변동

SSE: Sum of Square Error, 오차 제곱의 합, 잔차변동, 설명 안된 변동

SST: Sum of Square Total, 총 제곱의 합,  총변동


수식으로 표현하면 다음과 같다. (Y값의 의미를 생각하면 금방 이해될 것이다.)




마치면서

정리하면, 결정계수는 총 변동 중에서 회귀선에 의해 설명이 되는 변동이 차지하는 비율이라 할 수 있다. 

이것은 0과 1사이의 값을 가지며, X와 Y의 관계가 클수록 결정계수는 1에 가까워진다. 

결정계수의 값이 0에 가까울수록 회귀선은 쓸모가 없으며, 클수록 (보통 R2>=0.65) 쓸모 있는 회귀식이 된다. 


그러나 결정계수가 적합성 검증에 절대적인 것은 아니다. 

실제로 결정계수에 대한 검정 방법이 없으므로, 결정계수로 회귀모형의 적합성을 설명하는 것은 위험하다. 

단지 독립변수들을 설명하는 것으로 활용해야 하며, 회귀모형의 적합성은 보통 F검정으로 해야한다. 

그래서 다음에는 F검정에 대해서 정리해 보려고 한다. 


댓글
댓글쓰기 폼