[[분류:통계학 용어]][[분류:한자어]] [include(틀:통계학)] [목차] == 개요 == {{{+1 [[推]][[定]][[量]] / estimator}}} [[통계학]]에서, 불완전한 데이터인 [[표본조사|표본]]으로부터 전체 [[모집단]]에 대한 정보를 짐작하는 일을 추정([[推]][[定]], estimation)이라 한다. 이 문서에서는 [[통계학]]의 추정 이론 중에서도 좋은 추정량이 가져야 하는 조건들을 소개한다. == 설명 == 모집단의 모수에 대한 추정은 항상 표본통계량이라는 정보로 이루어지는데, 모수를 추정하는 공식을 나타내는 '표본통계량'을 '''추정량''', 실제의 관찰값을 넣어 계산한 값을 '''추정치'''([[推]][[定]][[値]], estimate)라고 한다. 예를 들면 다음과 같다. * 모수 [math(\mu)]의 추정량은 [math(\bar X=\dfrac{\sum X_i}n)] * 모수 [math(\sigma^2)]의 추정량은 [math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1})] * 모수 [math(p)]의 추정량은 [math(\hat p=\dfrac{X}n)] 이때 구체적인 수치로 계산되어 나올 수 있는 [math(\bar X=10)], [math(s^2=4)], [math(\hat p=0.2)] 등은 추정치가 되는 것이다. 일반적으로 모수를 [[그리스 문자]] [[θ|[math(\theta)]]]로, 추정량을 [math(\hat\theta)]으로, [math(E(\hat\theta)=\bar{\hat\theta})]로 표기한다. [math(\hat\theta)]는 '세타 햇(theta hat)', [math(\bar{\hat\theta})]는 '세타 햇 바(theta hat bar)'로 읽는다. === 불편추정량·편의추정량·편의 === 분포의 평균값이 추정하려는 모수와 일치하는 추정량을 '''불편추정량'''([[不]][[偏]][[推]][[定]][[量]], unbiased estimator), 그렇지 않은 추정량을 '''편의추정량'''([[偏]][[倚]][[推]][[定]][[量]], biased estimator)이라고 한다.[* 흔히 쓰는 '불편(不便)', '편의(便宜)'와 발음이 같아서 혼동하기 쉬운데, '편'은 [[便]](편할 편)이 아니라 [[偏]](치우칠 편)이다.] 이를 식으로 나타내면 다음과 같다. * [math(E(\hat\theta)=\theta)]이면 '''불편추정량''' * [math(E(\hat\theta)\neq\theta)]이면 '''편의추정량''' 여기에서 [math(E(\hat\theta)-\theta)]를 '''편의'''(bias)라고 한다. 따라서 편의가 0이면 불편추정량, 편의가 0이 아니면 편의추정량이 된다. 다음은 불편추정량의 예이다. * [math(\theta=\mu\quad\rightarrow\quad E(\hat\theta)=E(\bar X)=\mu)] * [math(\theta=\sigma^2\quad\rightarrow\quad E(\hat\theta)=E(s^2)=\sigma^2)] 이를 두고 '[math(\bar X)]는 [math(\mu)]의 불편추정량', '[math(s^2)]은 [math(\sigma^2)]의 불편추정량'이라고 표현한다. 이렇게 되는 이유는 [[표본분포]] 참고. === 유효추정량·평균제곱오차 === 모수의 불편 추정량 가운데에서 분산이 최소인 불편 추정량을 말한다. 그래서 '''유효추정량'''([[有]][[效]][[推]][[定]][[量]], relatively efficient estimator)을 '''최소분산불편추정량'''(MVUE; minimum variance unbiased estimator)이라고도 한다. 이를 식으로 나타내면 다음과 같다. {{{#!wiki style="text-align: center" [math(\rm{MSE}(\hat\theta)=E[(\theta-\hat\theta)^2] )]}}} 이 식의 값을 '''평균제곱오차''' 또는 '''평균자승오차''' 또는 '''평균평방오차'''라고 한다. 그러나 말도 어렵고 특히 '자승'과 같은 표현은 아예 구식이기 때문에 '''MSE'''(mean squared error) 역시 많이 쓴다. [math(\hat\theta)]의 MSE는 [math(\rm{MSE}(\hat\theta))]으로 표기한다. MSE를 조금 더 쉽게 계산하는 공식을 유도해 보자. ||<:>[math(\begin{aligned}E[(\hat\theta-\theta)^2]&=E[\{(\hat\theta-\bar{\hat\theta})+(\bar{\hat\theta}-\theta)\}^2]\\&=E[(\hat\theta-\bar{\hat\theta})^2]+E[(\bar{\hat\theta}-\theta)^2]+2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]\end{aligned})] || 여기에서 [math(\bar{\hat\theta})]와 [math(\theta)]는 그저 일정한 값이고, 일정한 값에는 기댓값을 취하나 마나 하므로 {{{#!wiki style="text-align: center" [math(E[(\bar{\hat\theta}-\theta)^2]=(\bar{\hat\theta}-\theta)^2)]}}} 또한, [math(\hat\theta-\bar{\hat\theta})]는 [math(\hat\theta)]의 편차이고, 편차의 합은 0이므로 편차의 평균 역시 0이다. {{{#!wiki style="text-align: center" [math(2E[(\hat\theta-\bar{\hat\theta})(\bar{\hat\theta}-\theta) ]=2(\bar{\hat\theta}-\theta)E[(\hat\theta-\bar{\hat\theta}) ]=0 )]}}} 따라서 [math({\rm MSE})]를 다음과 같이 쓸 수 있다. 곧, [math({\rm MSE})]는 편의의 제곱과 [math(\hat\theta)]의 분산의 합이다. {{{#!wiki style="text-align: center" [math(\begin{aligned}{\rm MSE}=E[(\theta-\hat\theta)^2]&=E[(\hat\theta-\bar{\hat\theta})^2]+(\bar{\hat\theta}-\theta)^2\\&={\rm Var}(\hat\theta)+\textsf{(bias)}^2\end{aligned})]}}} 불편추정량은 편의가 0이므로, 불편추정량의 [math({\rm MSE})]는 [math(\hat\theta)]의 분산과 같다. 결국 이 [math({\rm MSE})]가 작을수록 모수와의 오차가 덜하도록 해 준다는 의미이기 때문에 더 좋은 추정량이라고 할 수 있다. ==== 상대효율 ==== 모수 [math(\theta)]에 대한 두 추정량을 [math(\hat\theta_1)], [math(\hat\theta_2)]라 할 때, 두 [math({\rm MSE})]의 비율 {{{#!wiki style="text-align: center" [math(\dfrac{E[(\theta-\hat\theta_1)^2]}{E[(\theta-\hat\theta_2)^2]}=\dfrac{{\rm MSE}(\hat\theta_1)}{{\rm MSE}(\hat\theta_2)})]}}} 을 [math(\hat\theta_1)]에 대한 [math(\hat\theta_2)]의 '''상대효율'''([[相]][[對]][[效]][[率]], relative efficiency)이라고 하며 약어로 [math(\rm RE)]로 표기한다. 상대효율은 다음과 같이 활용한다. * [math(\rm RE>1)]이면 [math(\hat\theta_2)]가 더 좋은 추정량 * [math(\rm RE<1)]이면 [math(\hat\theta_1)]이 더 좋은 추정량 결국 이는 위에서 살펴본 두 [math({\rm MSE})]의 대소 판별과 다를 것이 없다. === 일치추정량 === 표본의 개수 [math(n)]과 임의의 양의 상수 [math(c)]에 대하여 다음이 성립할 때 [math(\hat\theta)]은 [math(\theta)]의 '''일치추정량'''([[一]][[致]][[推]][[定]][[量]], consistent estimator)이라고 한다. {{{#!wiki style="text-align: center" [math(\displaystyle\lim_{n\to\infty}P[|\hat\theta-\theta|\geq c]=0)]}}} [math(\theta=\mu)]인 경우를 예를 들어 다르게 설명하면, 표본의 개수 [math(n)]이 커짐에 따라 표본평균 [math(\bar X)]가 모평균 [math(\mu)]에 확률적으로 수렴해 갈 때 [math(\bar X)]는 [math(\mu)]의 일치추정량이라고 한다. 또한, 다음 조건을 만족시키는 추정량은 일치추정량이다. * [math(\hat\theta)]가 불편추정량 * [math(\displaystyle\lim_{n\to\infty}{\rm Var}(\hat\theta)=0)] 불편추정량은 편의가 0이므로, [math(\rm{MSE}(\hat\theta)=\rm{Var}(\hat\theta))]이다. 따라서 위 조건을 더욱 간단히 하면 다음과 같다. * [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)][* [math(\rm{MSE=Var}(\hat\theta)+(\textsf{bias})^2)]에서, 편의가 0이 아니면서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되는 경우는 고려하지 않느냐고 반문할 수 있다. 그러나 이는 '''불가능하다.''' 왜냐하면 우선 [math((\textsf{bias})^2\geq 0)]이므로 편의가 0이 아니라면 무조건 [math((\textsf{bias})^2>0)]일 수밖에 없다. 이런 상황에서 [math(\displaystyle\lim_{n\to\infty}\rm{MSE}(\hat\theta)=0)]이 되려면 무조건 [math(\rm{Var}(\hat\theta)<0)]이어야 하는데 이는 불가능하다. 분산은 '편차의 제곱의 평균'이므로 음이 될 수 없기 때문이다.] 따라서, [math(\bar X)]와 [math(s^2)]은 앞서 밝혔듯이 불편추정량이며, [math({\rm Var}(\bar X)={\sigma^2}/n)]이고 [math({\rm Var}(s^2)={2\sigma^4}/({n-1}))]이므로 [math(n\to\infty)]이면 극한값은 [math(0)]이 되어 [math(\boldsymbol{\bar X})]'''와''' [math(\boldsymbol{s^2})]'''은 일치추정량이다.''' === 충분추정량·충분성 === 표본으로부터 얻은 추정량이 모수에 대한 정보를 충분히 제공하여 줄 때 그 추정량은 '''충분성'''([[充]][[分]][[性]], sufficiency)이 있다고 하며, 이 추정량을 '''충분추정량'''([[充]][[分]][[推]][[定]][[量]], sufficient estimator)이라고 한다. 수학적인 정의는 다음과 같다. ||각 [math(\hat\Theta)]의 값에 대하여 [math(\hat\Theta=\hat\theta)]이 주어질 때 확률표본 [math(X_1,\,X_2,\,\cdots,\,X_n)]의 조건부확률분포 또는 밀도가 [math(\theta)]에 대하여 독립이면, 통계량 [math(\hat\Theta)]을 모수 [math(\theta)]의 '''충분추정량'''이라고 한다. || == 우선순위 == 두 추정량 [math(\hat\theta_1)]과 [math(\hat\theta_2)] 중에서, 전자가 불편추정량이고 후자가 유효추정량인 경우 어떤 추정량을 우선할까? 곧, 다음과 같은 경우를 말한다. {{{#!wiki style="text-align: center" [math(\begin{cases}E(\hat\theta_1)=\theta,\;E(\hat\theta_2)\neq\theta\\{\rm MSE}[\hat\theta_1]>{\rm MSE}[\hat\theta_2]\end{cases})]}}} 이런 경우에는 일반적으로 '''불편추정량을 우선한다.''' 그러나 [math({\rm MSE}[\hat\theta_1])]와 [math({\rm MSE}[\hat\theta_2])]의 차이가 워낙에 커서 무시하기 어려운 경우 얘기가 달라질 수 있다. === 예시 === [math(s^2)]의 추정량을 정하는 문제가 대표적인 예시이다. 원래대로라면, 분산은 편차의 제곱의 '''평균'''이므로 편차의 제곱을 모두 합한 뒤 표본의 개수로 나누어야 하는데, [math(\sigma^2)]을 구할 때와는 달리 [math(s^2)]을 구할 때는 '''(표본의 개수)-1'''로 나누는 데에는 여러 이유가 있다. 그중에서 한 이유가 바로 불편추정량과 유효추정량의 문제이다. 다음과 같이 두 추정량을 약속하여 비교해 보자. ||
<:>[math(s^2=\dfrac{\sum(X_i-\bar X)^2}{n-1},\;{\hat\sigma}^2=\dfrac{\sum(X_i-\bar X)^2}n )][*비교 [math({\hat\sigma}^2=\dfrac{n-1}ns^2)] ] || 먼저, 앞서 밝혔듯이 [math(s^2)]은 [math(\sigma^2)]의 불편추정량이므로, [math(s^2)]과 값이 같을 수가 없는 [math({\hat\sigma}^2)]은 편의추정량이다. 따라서 불편추정량의 관점에서 보면 [math(s^2)]이 [math({\hat\sigma}^2)]보다 더 적절한 추정량이다. 이번에는 유효추정량의 관점에서 [math(\rm MSE)]의 대소를 판별해 보자. ||
<:>[math(\begin{aligned}{\rm MSE}[{\hat\sigma}^2]&={\rm Var}({\hat\sigma}^2)+[E({\hat\sigma}^2)-\sigma^2]^2\\&=\left(\dfrac{n-1}n\right)^{\!2}\dfrac{2\sigma^4}{n-1}+\left(\dfrac{n-1}n\sigma^2-\sigma^2\right)^{\!2}\\&=\dfrac{2n-1}{n^2}\sigma^4\\{\rm MSE}[s^2]&={\rm Var}(s^2)+\textsf{(bias)}^2\\&=\dfrac{2\sigma^4}{n-1}\;(\because\textsf{(bias)}=0)\\ \\\rightarrow{\rm MSE}[s^2]-{\rm MSE}[{\hat\sigma}^2]&=\dfrac{2\sigma^4}{n-1}-\dfrac{2n-1}{n^2}\sigma^4\\&=\dfrac{3n-1}{n^2(n-1)}\sigma^4\geq 0 \\ \\ \therefore{\rm MSE}[s^2]&\geq{\rm MSE}[{\hat\sigma}^2] \end{aligned})] || [math(n>1)]일 경우에 [math(3n-1,\;n^2,\;n-1>0)], [math(\sigma^4\geq 0)]이므로 위가 성립하여, 결국 유효추정량의 관점에서는 [math({\hat\sigma}^2)]이 [math(s^2)]보다 [math({\rm MSE})]가 클 일이 없으므로 더 적절한 추정량이다. 두 추정량의 [math(\rm MSE)]가 같은 경우는 [math(\sigma^4=0)]일 때인데, 이는 각 [math(X_i)]들의 값이 모두 같아 편차와 분산이 0이 되는 매우 드물고 극단적인 경우뿐이다. 따라서 사실상 [math({\rm MSE}[s^2]>{\rm MSE}[{\hat\sigma}^2])]로 보아도 좋다. 이렇게 [math(s^2)]과 [math({\hat\sigma}^2)]은 척도에 따라 무엇이 적절한지의 결론이 다르게 나오는데, 이 경우 '''불편추정량'''을 더 중요한 척도로 평가하여 [math(s^2)]을 채택하는 것이다. 다시 말해서, 표본분산을 구할 때는 표본의 개수가 아니라 표본의 개수에서 1을 뺀 값으로 나누게 된다.