문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 공분산 (문서 편집) [[분류:통계학]][[분류:수학 용어]][[분류:한자어]] [include(틀:통계학)] [목차] == 개요 == {{{+1 [[共]][[分]][[散]] / covariance}}} '''공분산'''은 두 개의 [[확률 변수]]의 선형관계를 나타내는 값이다. 한 확률 변수의 증감에 따른 다른 확률 변수의 증감의 경향에 대한 측도이다. 쉽게 말해 [[분산]]이라는 개념을 확장하여 '''두 개의 확률 변수'''의 흩어진 정도를 공분산이라고 하는 것이다. == 정의 == 두 확률변수 [math(X)], [math(Y)]의 결합확률함수가 [math(f(x,\,y))]일 때 다음을 [math(X)], [math(Y)]의 '''공분산'''이라고 한다. {{{#!wiki style="text-align: center" [br][math({\rm Cov}(X,\,Y)={\mathbb E}\{(X-\mu_x)(Y-\mu_y)\})]}}} === 모공분산 === 모공분산은 [[모집단]]의 공분산이다. [math({\rm Cov}(X,\,Y))] 또는 [math(\sigma_{XY})]로 쓴다. [math(X)]와 [math(Y)]는 확률 변수, [math(N)]은 모집단의 표본의 개수, [math(X_i)]와 [math(Y_i)]는 각 확률 변수의 [[도수#s-6]], [math(\mu)]는 [[모평균]]을 뜻한다. ||<:> [math(\begin{aligned}{\rm Cov}(X,\,Y)&=\sigma_{XY}\\&=\displaystyle\frac{1}{N}\sum_{i=1}^N (X_i-\mu_X)(Y_i-\mu_Y)\\&={\mathbb E}\{(X-\mu_X)(Y-\mu_Y)\}\end{aligned})] || 곧, 모공분산이란 [math(X)]의 [[편차]]와 [math(Y)]의 편차의 곱의 평균이다. === 표본공분산 === 표본공분산은 표본집단의 공분산이다. [math(S_{XY})]로 쓴다. [math(X)]와 [math(Y)]는 확률 변수, [math(n)]은 표본집단의 표본의 개수, [math(X_i)]와 [math(Y_i)]는 각 확률 변수의 [[도수#s-6]], [math(\bar X)]와 [math(\bar Y)]는 표본평균을 뜻한다. ||<:> [math(\begin{aligned}S_{XY}&=\displaystyle\frac{1}{n-1}\sum_{i=1}^n {(X_i-\bar X)(Y_i-\bar Y)}\\&={\mathbb E}\{(X-\bar X)(Y-\bar Y)\}\end{aligned})] || 곧, 표본공분산이란 [math(X)]의 [[편차]]와 [math(Y)]의 편차의 곱의 평균이다. 주의할 점은 '''(표본의 개수)[math(\boldsymbol{-1})]'''로 나눈다는 것이다. [math(n)]이 아니라 [math(n-1)]로 나누는 것은 오차를 줄이기 위함으로, 일반적인 [[표본 분산]]의 계산법과 같다. == 성질 == 공분산의 정의에 따라 같은 확률 변수 두 개의 공분산이란 결국 '''해당 확률 변수의 분산'''이 된다. {{{#!wiki style="text-align: center" [br][math(\begin{aligned}{\rm Cov}(X,\,X)&=\sigma_{XX}\\&=\displaystyle\frac{1}{N}\sum_{i=1}^n (X_i-\mu_X)(X_i-\mu_X)\\&=\frac{1}{N}\sum_{i=1}^n (X_i-\mu_X)^2\\&={\mathbb E}[(X-\mu)^2]\\&={\rm Var}[X] \\ \\S_{XX}&=\displaystyle\frac{1}{n-1}\sum_{i=1}^n {(X_i-\bar X)(X_i-\bar X)}\\&=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar X)^2\\&={S_X}^2\end{aligned})]}}} 또한, 공분산의 계산에서는 두 확률 변수의 편차를 '''곱'''하므로, [[교환법칙]]에 따라 [math({\rm Cov}(X,\,Y)={\rm Cov}(Y,\,X))]이다. 공분산의 정의는 [[내적]]의 정의를 만족시킨다. 따라서 [[코시-슈바르츠 부등식]]을 적용할 수 있고 이를 통해 피어슨 [[상관계수]]를 유도할 수 있다. == 해석 == 확률 변수 [math(X)]와 [math(Y)]에 대하여 다음과 같이 해석한다. * [math({\rm Cov}(X,\,Y)>0)]이면 [math(X)]와 [math(Y)]는 '''양의 관계''' * [math({\rm Cov}(X,\,Y)<0)]이면 [math(X)]와 [math(Y)]는 '''음의 관계''' * [math({\rm Cov}(X,\,Y)=0)]이면 [math(X)]와 [math(Y)]는 '''양도 음도 아닌 관계''' 주의할 점은 [math({\rm Cov}(X,\,Y)=0)]을 '''[math(\boldsymbol X)]와 [math(\boldsymbol Y)]는 관계가 없다고 해석하면 안 된다'''는 것이다. [math(x^2+y^2=k^2)]([math(k)]는 상수)이 대표적인 반례이다. 만약 두 확률 변수 [math(X)]와 [math(Y)]에 대하여 이 관계가 성립하면 [math({\rm Cov}(X,\,Y)=0)]이다. 틀림없이 공분산은 0이지만, 분명히 [math(x^2+y^2=k^2)]이라는, 모종의 관계가 성립하고 있는 것이다. == 분산-공분산 행렬 == 분산-공분산 행렬이란 다음과 같이 분산과 공분산을 나타낸 [[행렬(수학)|행렬]]을 말한다. || || [math(X)] || [math(Y)] || [math(Z)] || || [math(X)] || [math({S_X}^2)] || [math(S_{XY})] || [math(S_{XZ})] || || [math(Y)] || [math(S_{XY})] || [math({S_Y}^2)] || [math(S_{YZ})] || || [math(Z)] || [math(S_{XZ})] || [math(S_{YZ})] || [math({S_Z}^2)] || == 공식 == * [math({\rm Cov}(X,\,Y)={\mathbb E}(XY)-{\mathbb E}(X){\mathbb E}(Y))][* 분산이 (제곱의 평균)−(평균의 제곱)이듯이, 공분산은 (곱의 평균)−(평균의 곱)이다.] {{{#!folding [증명] ------- [math((X-\mu_X)(Y-\mu_Y)=XY-\mu_XY-\mu_YX+\mu_X\mu_Y)]를 이용하면 ||<:> [math(\begin{aligned}{\rm Cov}(X,\,Y)&={\mathbb E}(XY)-{\mathbb E}(\mu_XY)-{\mathbb E}(\mu_YX)+{\mathbb E}(\mu_X\mu_Y)\\&={\mathbb E}(XY)-\mu_X{\mathbb E}(Y)-\mu_Y{\mathbb E}(X)+\mu_X\mu_Y\\&={\mathbb E}(XY)-\mu_X\mu_Y\end{aligned})]|| ------- }}} * [math({\rm Var}(X+Y)={\rm Var}(X)+{\rm Var}(Y)+2{\rm Cov}(X,\,Y))] {{{#!folding [증명] ------- 분산의 정의에 의하여 [math({\rm Var}(X+Y)={\mathbb E}[(X+Y-\mu_{X+Y})^2])]이고 [math(\mu_{X+Y}=\mu_X+\mu_Y)]이므로 ||<:> [math(\begin{aligned}{\rm Var}(X+Y)&={\mathbb E}[(X-\mu_X+Y-\mu_Y)^2]\\&={\mathbb E}[(X-\mu_X)^2+2(X-\mu_X)(Y-\mu_Y)+(Y-\mu_Y)^2]\\&={\mathbb E}[(X-\mu_X)^2]+{\mathbb E}[(Y-\mu_Y)^2]+2{\mathbb E}\{(X-\mu_X)(Y-\mu_Y)\}\\&={\rm Var}(X)+{\rm Var}(Y)+2{\rm Cov}(X,\,Y)\end{aligned})] || -------- }}} * 일반화: [math({\rm Var}\left(\displaystyle\sum_{k=1}^nX_k\!\right)=\displaystyle\sum_{k=1}^n{\rm Var}(X_k)+2\sum_{i저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기