결정계수 (문단 편집)

== 중요도? ==
통계를 처음 배울때, 높은 결정계수가 좋다고 배운다. 하지만, 일반적으로 알려진 사실과는 달리 R^^2^^가 크다고 무조건 좋은 것도 아니고 작다고 나쁜 것도 아니다. 예를들어, R^^2^^가 아무리 높아도 시계열모형에서의 허구적 회귀와 같은 경우라면 아무 의미가 없다. 그렇다고 R^^2^^ 가 아무리 작아도 선형모형에서 고전적 가정들(등분산, 자기상관성 없음, 내생성 없음 등)이 성립하면 변수간 관계를 추정하는데에는 전혀 문제가 없다. 사회과학 모형은 결정계수가 낮을 가능성이 큰데, 모형을 잘 설정하고 적절한 추정방법을 사용했다면 R^^2^^가 작더라도 의미 있는 결론을 도출 할수 있다.

R^^2^^ 의 문제점은 너무 많은 것에 영향을 받으며, 대표적으로 종속 변수의 분산과 잔차의 분산에 크게 의존하게 된다. 또한, R^^2^^ 이 모델 적합도를 나타내는 척도라 정의되어 있지만, 단순히 R^^2^^ 값 만으로는 "모델 선형성" 이나 "종속변수와 독립 변수간의 관계" 또는 "모델적합도"에 대해여 별로 도움이 되지 않는다는거다.

해당 문제점을 잘 보여주는 예제인 [[https://ko.wikipedia.org/wiki/%EC%95%A4%EC%8A%A4%EC%BB%B4_%EC%BD%B0%EB%A5%B4%ED%85%9F|앤스컴 콰르텟]]의 나오는 4가지 데이터셋의 결정계수는 전부 동일하나, 시각화 했을 경우, 매우 다른 결과가 나온다. 사실 해당 예제는 시각화가 중요하다 라는걸 알리는 예제이지만, 0.67 이라는 결정계수값 만으로는 단순히 모델이 적합한지 판단 할수 없다 라는 점을 시사한다. 따라서, 선형 모델을 비교할때는, '''단순히 결정 계수값만 볼게아니라 시각화를 통해 해당 모델이 적합한지 확인해야 한다.'''

선형모형의 목적이 종속변수의 예측에 있는 것이라면, 간단하게 R^^2^^ 를 무시하면 된다. R^^2^^ 는 선형모델의 예측력을 잘 설명하지 못하기 때문에 다른 성능 평가 지표들이 쓰인다. 대표적으로, 연속형 종속 변수의 경우, 평균 제곱 오차가 쓰이며 범주형 종속 변수의 경우, 혼동 행렬이 쓰인다.

반면 목적이 변수간 관계 추정에 있다면 R^^2^^ 보다는 adjusted R^^2^^ (수정된 결정계수) 가 더 중요하다. R^^2^^ 는 독립변수의 개수를 추가 할 경우, 변하지 않거나 증가하나 절대로 감소하지는 않는다. 따라서, 독립변수가 1개인 모델과 독립변수가 10개인 모델을 비교했을때, 독립변수가 더 많은 모델의 결정계수가 더 클 수밖에없다. 해당 문제를 해결 하기위해, adjusted R^^2^^ (수정된 결정계수) 쓰인다. 수정된 결정계수는 표본의 크기와 독립변수의 수를 고려하여 계산이 된다. 따라서, 종속변수의 변동을 별로 설명해 주지 못하는 변수가 모형에 추가 될 경우, 수정된 결정계수는 감소하게 되고 종속변수의 변동을 잘 설명해 주는 변수가 모형에 추가 될 경우, 수정된 결정계수는 증가하게 된다. 단, 독립 변수의 개수가 1개인 단순 회귀의 경우, 결정계수값이 수정된 결정계수값과 동일하다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

결정계수 (문단 편집)

캡챠