분산 (문단 편집)

=== n-1로 나눔 ===
표본분산은 표본에서 구한 분산으로 모분산을 추정할 때 위의 분산 공식에서 [math(n)]으로 나누는 것과 다르게 [math(n-1)]로 나눈다. [[https://blog.naver.com/physicopianist/221079231724 |분산 및 표준편차에서 분모를 n-1로 계산하는 이유]]

데이터의 각 값에서 [[표본 평균]] [math(\bar{X})]를 빼고 제곱해서 모두 더한 후, [[표본]](sample)의 데이터 갯수 [math(n)]에서 [math(1)]을 뺀 [math(n-1)]로 나눈다. 여기서 [math(n-1)]로 나누는 이유는 [math(n-1)]이 값이 표본의 자유도가 되기 때문이다.--(자유도에 대한 설명은 모든 통계 관련 수업마다 다루지만, 제대로 설명해주는 경우는 없다.)-- [[https://www.youtube.com/watch?v=O4bpaGOd4Hg|자유도의 개념]]을 이해 했다면, 불편추정량으로 n-1로 나누는 이유를 설명할 수 있다.

이는 표본분산을 [[불편추정량]](unbiased estimator)으로 만들기 위해서이다. [[불편추정량]]이 되기 위해서는 [[독립항등분포]] (모든 관측치가 독립이고 동일한 확률분포에서 뽑혔다는 뜻. iid; independent and identically distributed)는 가정이 필요하다. 조금 더 나아가서 이야기 하면 iid 샘플링을 정규분포에서 했다고 가정했을 경우 표본일지라도 위의 분산공식을 그대로 표본분산으로 사용한다. --(표본을 추출한 이유가 모집단의 모수를 추정하기 위함임을 명심한다.)--불편추정량에 통한 이해가 어렵다면 [[https://www.youtube.com/watch?v=frz-BE3a6H0|수식 없이 설명하는 표분분산 계산법]]을 참고하길 바란다.

또, [math(n)]으로 나눈 분산이 최대우도추정량(Maximum Likelihood Estimator)으로 설명가능하다. 이 경우에는 [math(n-1)]로 나누나 [math(n)]으로 나누나 어차피 일치추정량(Consistent Estimator)이기 때문에 어느 쪽을 사용하더라도 문제는 없다.

다만 z-test, t-test 등의 검정을 수행할 때는 꼭 통계학 서적에 있는 대로 계산하자. 그 때는 [math(n)]으로 나누거나 [math(n-1)]로 나누는 것이 꽤나 중요하다. 물론 n이 꽤나 크면 그렇게까지 중요하지는 않다. 값을 1,000,000으로 나누는 것과 999,999으로 나누는 것은 오차가 작기 때문이다. 하지만 모집단과 표본의 [[https://www.youtube.com/watch?v=O4bpaGOd4Hg|자유도의 개념]]은 숙지하는 것이 훗날을 위해 편하다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

분산 (문단 편집)

캡챠