추정량

덤프버전 :


    통계학

Statistics
[ 펼치기 · 접기 ]




1. 개요
2. 설명
2.1. 불편추정량·편의추정량·편의
2.2. 유효추정량·평균제곱오차
2.2.1. 상대효율
2.3. 일치추정량
2.4. 충분추정량·충분성
3. 우선순위
3.1. 예시


1. 개요[편집]


/ estimator

통계학에서, 불완전한 데이터인 표본으로부터 전체 모집단에 대한 정보를 짐작하는 일을 추정(, estimation)이라 한다. 이 문서에서는 통계학의 추정 이론 중에서도 좋은 추정량이 가져야 하는 조건들을 소개한다.


2. 설명[편집]


모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 추정량, 실제의 관찰값을 넣어 계산한 값을 추정치(, estimate)라고 한다. 예를 들면 다음과 같다.

  • 모수 [math(\mu)]의 추정량은 [math(\bar X=\dfrac{\sum X_i}n)]
  • 모수 [math(\sigma^2)]의 추정량은 [math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1})]
  • 모수 [math(p)]의 추정량은 [math(\hat p=\dfrac{X}n)]

이때 구체적인 수치로 계산되어 나올 수 있는 [math(\bar X=10)], [math(s^2=4)], [math(\hat p=0.2)] 등은 추정치가 되는 것이다.

일반적으로 모수를 그리스 문자 [math(\theta)]로, 추정량을 [math(\hat\theta)]으로, [math(E(\hat\theta)=\bar{\hat\theta})]로 표기한다. [math(\hat\theta)]는 '세타 햇(theta hat)', [math(\bar{\hat\theta})]는 '세타 햇 바(theta hat bar)'로 읽는다.


2.1. 불편추정량·편의추정량·편의[편집]


분포의 평균값이 추정하려는 모수와 일치하는 추정량을 불편추정량(, unbiased estimator), 그렇지 않은 추정량을 편의추정량(, biased estimator)이라고 한다.[1] 이를 식으로 나타내면 다음과 같다.

  • [math(E(\hat\theta)=\theta)]이면 불편추정량
  • [math(E(\hat\theta)\neq\theta)]이면 편의추정량

여기에서 [math(E(\hat\theta)-\theta)]를 편의(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다.

  • [math(\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu)]
  • [math(\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2)]

이를 두고 '[math(\bar X)]는 [math(\mu)]의 불편추정량', '[math(s^2)]은 [math(\sigma^2)]의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 표본분포 참고.


2.2. 유효추정량·평균제곱오차[편집]


모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 유효추정량(, relatively efficient estimator)을 최소분산불편추정량(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다.

[math(\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] )]
[1] 흔히 쓰는 '불편(不便)', '편의(便宜)'와 발음이 같아서 혼동하기 쉬운데, '편'은 便(편할 편)이 아니라 (치우칠 편)이다.

이 식의 값을 평균제곱오차 또는 평균자승오차 또는 평균평방오차라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 MSE(mean squared error) 역시 많이 쓴다. [math(\hat\theta)]의 MSE는 [math(\rm{MSE}(\hat\theta))]으로 표기한다.

MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자.

[math(\begin{aligned}E[(\hat\theta-\theta)^2]&=E[\{(\hat\theta-\bar{\hat\theta})+(\bar{\hat\theta}-\theta)\}^2]\\&=E[(\hat\theta-\bar{\hat\theta})^2]+E[(\bar{\hat\theta}-\theta)^2]+2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]\end{aligned})]
여기에서 [math(\bar{\hat\theta})]와 [math(\theta)]는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로

[math(E[(\bar{\hat\theta}-\theta)^2]=(\bar{\hat\theta}-\theta)^2)]

또한, [math(\hat\theta-\bar{\hat\theta})]는 [math(\hat\theta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다.

[math(2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 )]

따라서 [math({\rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({\rm MSE})]는 편의의 제곱과 [math(\hat\theta)]의 분산의 합이다.

[math(\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\hat\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned})]

불편추정량은 편의가 0이므로, 불편추정량의 [math({\rm MSE})]는 [math(\hat\theta)]의 분산과 같다. 결국 이 [math({\rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다.


2.2.1. 상대효율[편집]


모수 [math(\theta)]에 대한 두 추정량을 [math(\hat\theta_1)], [math(\hat\theta_2)]라 할 때, 두 [math({\rm MSE})]의 비율

[math(\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)})]

을 [math(\hat\theta_1)]에 대한 [math(\hat\theta_2)]의 상대효율(, relative efficiency)이라고 하며 약어로 [math(\rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다.

  • [math(\rm RE>1)]이면 [math(\hat\theta_2)]가 더 좋은 추정량
  • [math(\rm RE<1)]이면 [math(\hat\theta_1)]이 더 좋은 추정량

결국 이는 위에서 살펴본 두 [math({\rm MSE})]의 대소 판별과 다를 것이 없다.

2.3. 일치추정량[편집]


표본의 개수 [math(n)]과 임의의 양의 상수 [math(c)]에 대하여 다음이 성립할 때 [math(\hat\theta)]은 [math(\theta)]의 일치추정량(, consistent estimator)이라고 한다.

[math(\displaystyle\lim_{n\to\infty}P[|\hat\theta-\theta|\geq c]=0)]

[math(\theta=\mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(\bar X)]가 모평균 [math(\mu)]에 확률적으로 수렴해 갈 때 [math(\bar X)]는 [math(\mu)]의 일치추정량이라고 한다.

또한, 다음 조건을 만족시키는 추정량은 일치추정량이다.
  • [math(\hat\theta)]가 불편추정량
  • [math(\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0)]

불편추정량은 편의가 0이므로, [math(\rm{MSE}(\hat\theta)=\rm{Var}(\hat\theta))]이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다.
  • [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)][2]

따라서, [math(\bar X)]와 [math(s^2)]은 앞서 밝혔듯이 불편추정량이며, [math({\rm Var}(\bar X)={\sigma^2}/n)]이고 [math({\rm Var}(s^2)={2\sigma^4}/({n-1}))]이므로 [math(n\to\infty)]이면 극한값은 [math(0)]이 되어 [math(\boldsymbol{\bar X})] [math(\boldsymbol{s^2})]은 일치추정량이다.


2.4. 충분추정량·충분성[편집]


표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 충분성(, sufficiency)이 있다고 하며, 이 추정량을 충분추정량(, sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다.

각 [math(\hat\Theta)]의 값에 대하여 [math(\hat\Theta=\hat\theta)]이 주어질 때 확률표본 [math(X_1,\,X_2,\,\cdots,\,X_n)]의 조건부확률분포 또는 밀도가 [math(\theta)]에 대하여 독립이면, 통계량 [math(\hat\Theta)]을 모수 [math(\theta)]의 충분추정량이라고 한다.


3. 우선순위[편집]


두 추정량 [math(\hat\theta_1)]과 [math(\hat\theta_2)] 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다.

[math(\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_2)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases})]
[2] [math(\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2)]에서, 편의가 0이 아니면서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 불가능하다. 왜냐하면 우선 [math((\textsf{bias})^2\geq 0)]이므로 편의가 0이 아니라면 무조건 [math((\textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되려면 무조건 [math(\rm{Var}(\hat\theta)<0)]이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.

이런 경우에는 일반적으로 불편추정량을 우선한다. 그러나 [math({\rm MSE}[\hat\theta_1])]와 [math({\rm MSE}[\hat\theta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다.


3.1. 예시[편집]


[math(s^2)]의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 평균이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, [math(\sigma^2)]을 구할 때와는 달리 [math(s^2)]을 구할 때는 (표본의 개수)-1로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 다음과 같이 두 추정량을 약속하여 비교해 보자.
[math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1},\;{\hat\sigma}^2=\dfrac{\sum(X_i-\bar X)^2}n )][비교]
먼저, 앞서 밝혔듯이 [math(s^2)]은 [math(\sigma^2)]의 불편추정량이므로, [math(s^2)]과 값이 같을 수가 없는 [math({\hat\sigma}^2)]은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 [math(s^2)]이 [math({\hat\sigma}^2)]보다 더 적절한 추정량이다.

이번에는 유효추정량의 관점에서 [math(\rm MSE)]의 대소를 판별해 보자.
[math(\begin{aligned}{\rm MSE}[{\hat\sigma}^2]&={\rm Var}({\hat\sigma}^2)+[E({\hat\sigma}^2)-\sigma^2]^2\\&=\left(\dfrac{n-1}n\right)^{\!2}\dfrac{2\sigma^4}{n-1}+\left(\dfrac{n-1}n\sigma^2-\sigma^2\right)^{\!2}\\&=\dfrac{2n-1}{n^2}\sigma^4\\{\rm MSE}[s^2]&={\rm Var}(s^2)+\textsf{(bias)}^2\\&=\dfrac{2\sigma^4}{n-1}\;(\because\textsf{(bias)}=0)\\ \\\rightarrow{\rm MSE}[s^2]-{\rm MSE}[{\hat\sigma}^2]&=\dfrac{2\sigma^4}{n-1}-\dfrac{2n-1}{n^2}\sigma^4\\&=\dfrac{3n-1}{n^2(n-1)}\sigma^4\geq 0 \\ \\ \therefore{\rm MSE}[s^2]&\geq{\rm MSE}[{\hat\sigma}^2] \end{aligned})]
[math(n>1)]일 경우에 [math(3n-1,\;n^2,\;n-1>0)], [math(\sigma^4\geq 0)]이므로 위가 성립하여, 결국 유효추정량의 관점에서는 [math({\hat\sigma}^2)]이 [math(s^2)]보다 [math({\rm MSE})]가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 [math(\rm MSE)]가 같은 경우는 [math(\sigma^4=0)]일 때인데, 이는 각 [math(X_i)]들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 [math({\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2])]로 보아도 좋다.

이렇게 [math(s^2)]과 [math({\hat\sigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 불편추정량을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.
파일:크리에이티브 커먼즈 라이선스__CC.png 이 문서의 내용 중 전체 또는 일부는 2023-12-19 04:41:54에 나무위키 추정량 문서에서 가져왔습니다.

[비교] [math({\hat\sigma}^2=\dfrac{n-1}ns^2)]