[통계] Sample Variance (표본분산)을 구할 때 n-1을 나누어주는 이유

1 minute read

Sample Variance 표본 분산

표본 ${x_1,x_2, … x_n}$이 있다고 하자. 이 표본의 sample mean표본평균을 $\bar{x}$라고 했을 때, sample variance는 sample mean을 구했던 그 표본에 대한 variance이다. 일단, 수식으로 sample variance가 어떻게 생겨먹었는지 보자.

\[s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2\]

Sample variance는 sample 값과 sample mean의 편차 제곱 값들의 합에 $n$을 나눠주는 것이 아니라 $n-1$로 나누어준다. 왜 $n-1$일까? 어떻게 sampling을 하냐에 따라 sample variance는 population variance보다 클 수도 있고 작을 수도 있다. 하지만 sample variance들의 평균이 population variance에 가까워져야 표본을 잘 뽑았다고 할 수 있을 것이다. 다시 말해, sample variance estimator의 평균과 population variance모분산의 값이 같도록 (즉, $E(\hat{s}^2) = \sigma^2$, $\sigma^2$ : population variance)하여, unbiased estimator불편 추정기를 만들어 주어야 되는 것이다.

우선, $n$으로 나누어 주었을 경우를 pseudo-variance $\hat{s}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$ 라고하자. 이 때는 $E(\hat{s}^2) = \sigma^2$ 식을 만족하지 않는 biased estimator편향 추정기를 낳게 된다. 즉, pseudo-variance의 평균이 population variance와 같아지지 않게 된다. Unbiased estimator가 “efficient” estimator라고 보장할 수는 없지만, biased estimator는 “bad” estimator이다. 따라서 sample variance를 구할 때 Bessel’s correction베셀의 보정에 따라 임의로 보정해주어 unbiased estimator를 구해준 것이다.

많은 글에서는 단순히 “수학적으로 $n-1$로 나눠주니깐 unbiased estimator가 되었어!” 에 대한 유도로 설명한 글이 끝이었다. 하지만.. 왜? 라는 의문을 떨칠 수 없다.

가장 시원한 해석

https://tamref.com/22

이유 1. 수학적인 유도가 이렇게 된다.

이유 2. The number of samples

$n$으로 나누어준 pseudo-variance는 $(n-1)/n\ \sigma^2$이 되어 population variance를 underestimate (pseudo-variance < population variance)한 상태가 되기 때문에, biased sample variance estimator가 된다. 이를 보정해주기 위해 sample variance의 분모를 작게 $(n-1)$ 만들어 전체 sample variance를 크게 만든다.

현실에서 통계량을 계산할 때에는, 시간과 비용의 제약으로 표본을 추출해서 계산한다. 하지만 적은 표본으로는 정확한 값을 추정하기는 힘들고, 많은 표본을 추출하는 것은 리소스가 많이 든다. 따라서 $n-1$로 보정을 해주어 정확도를 높인다.

이유 3. Sample Variance 의 자유도가 n-1이다.

카이제곱 자유도

이유 4. 통계학적 Random Variable 해석 만족

Leave a comment