2SLS

덤프버전 :

1. 개요


1. 개요[편집]


2 stage least squares.

가우스-마르코브 가정 중 '잔차가 독립변수/설명변수와 상관관계가 없을 것'이라는 가정이 무너질 때 사용할 수 있는 추정방법.

두 단계에 걸쳐 추정하는데, 첫번째 단계에서는 도구변수를 사용하여 문제가 되는 변수를 추정하고, 두번째 단계에서는 그 문제되는 변수를 첫번째 단계에서 추정한 값으로 대체해버린 다음 원래 식을 추정하는 것이다.

가정에는 가우스-마르코브 가정의 대다수가 그대로 적용된다.
  • 모형이 정확하게 제시되어 있다(correctly specified.)
  • 모든 변수의 오차 분산이 동일하다.[1]
  • 오차항은 정규분포를 가진다.
  • 이상치(outlier)는 제거되어 있다.
  • 각 관측이 서로 독립적이다(independent of each other).

예를 들어 돈을 벌기 위해 노동(a1)과 인적자본(a2)을 투입해야 한다고 하자. 그러면 [math({\sf money} = a_0 + a_1 + a_2 + e)]의 식을 세워볼 수 있다. 그런데 노동력을 유지하기 위해서는 돈(b1)을 들여서 밥을 먹이고 잠잘 곳을 제공해야 한다. 즉 [math({\sf labor} = b_0 + b_1 + e)]의 식이 성립한다는 것이다. 이럴 경우 원래 식을 이용해 money를 추정하면, 실질적으로 아래의 식을 추정하는게 되어 버린다.
[math({\sf money} = a_0 + a_1 + a_2 + e )]
[math( \quad \quad \quad= a_0 + a_1(b_0 + b_1 + e) + a_2 + e)]
[math( \quad \quad \quad= a_0 + a_1(b_0 + b_1(a_0 + a_1 + a_2 + e) + e) + a_2 + e)]
이럴 경우, 2SLS를 이용하여 문제점을 해결할 수 있다.

예를 들어 원래 식이 다음과 같다 하자.
[math(y = a_1 + a_2x_1 + a_3x_2 + e)]
그리고 [math(e)]와 [math(x_1)]사이에 상관관계가 존재한다. 그러면 가우스-마르코브 가정이 만족되지 않아, OLS는 더 이상 BLUE[2]가 아니다. 이를 이제 2SLS로 추정하면 다음과 같다.
  1. [math(\hat{x_1} = b_1 + b_2z_1 + b_3x_2 + e)]를 먼저 추정한다. 여기서 [math(z_1)]은 도구변수를 의미한다.
  2. 위에서 추정한 값을, 원래 식에 집어넣어 추정한다. 즉 다음 식을 추정한다. [math(y = a_1 + a_2\hat{x_1} + a_3x_2 + e)]

2SLS에 대해서는 로그임금과 교육수준에 있어서의 회귀분석 시의 내생성 문제, 그 문제를 형제자매의 수라는 도구변수로 2SLS를 하여 해결하는 고전적인 자료가 있다. 워낙 유명하다보니 인터넷에 관련 강의노트, 갱신된 데이터, 통계학 프로그램에서의 2SLS를 하는 방법에 대한 자료가 아주 많다. 풍부한 설명과 직접 데이터를 다루는 연습이 필요하면 구글에 'log wage, education, siblings, two stage least squares'를 쳐보자.

도구변수와 내생성이 발생한 변수의 선형관계가 클 수록 추정의 효율성이 커져 추정의 불확실성이 줄어든다. 이 때의 선형관계는 도구변수와 내생성이 발생한 변수 사이의 상관관계라고 봐도 좋고 내생성이 발생한 변수를 도구변수에 대해 단순회귀분석 했을 때의 결정계수(R squared)라고 봐도 좋다. 단순회귀분석에서의 결정계수는 두 변수 간 상관관계의 제곱이기 때문이다.



파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-10-18 10:14:08에 나무위키 2SLS 문서에서 가져왔습니다.

[1] 예를 들어 두 독립변수가 있을 때 한 변수가 kg단위로, 다른 변수는 mg단위로 측정되었다면 이 가정이 만족되지 않는다.[2] best linear unbiased estimator