표본분포 – Statistics

표본분포 는 모집단에 대한 표본에 대한 분포이다.

표본분포의 기본개념

어떤집단의 전체를 모집단이라 정의하고, 그 모집단에서 일부의 집단을 표본집단이라 하고, 아래의 그림과 같이 표현 할 수 있다.

(모집단, 표본)

예를 들어 “우리나라 남성의 평균 키” 를 알고 싶을 때, 우리나라의 남성의 모든 키에 대한 정보를 알 수 없다. 그래서 그 일부 남성의 키의 정보를 수집한 평균값이 전체를 대변할 수 있지 않을까?

즉 표본을 이용하여 모집단의 특성을 파악한다.

표본에 대한 통계량을 구하여 이 통계량을 이용하여 표본분포 를 확인할 수 있다. 이 표본분포 를 이용하여 모수를 추정 할 수 있고, 검정 할 수 있다.

모집단에서 표본을 추출하여 평균과 분산의 기호는 아래와 같이 정의 한다.

MeanVariance
Population$\mu$$\sigma^{2}$
Sample$\bar{X}$$S^{2}$

통계량

통계량은 표본의 함수로 평균, 분산이 대표적인 통계량에 해당된다.

$\bar{X} = \dfrac{x_{1} + x_{2} + \cdot \cdot \cdot + x_{n}}{n}$

$S^{2} = \dfrac{1}{n-1}\sum_{i=1}^{n}(x_{i} – \bar{X})^{2}$

위와 같은 식으로 통계량은 계산되어진다.

예제)
표본평균 $\bar{X}$ 는 여러 가지의 관측값 $\bar{x}$ 를 가지는 확률 변수로써 $X_{1},X_{2},…X_{n}$ 의 관측값이 $x_{1},x_{2},….,x_{n}$ 이면 표본평균 $\bar{X}$ 는 $\bar{x}$를 관측값을 가진다. 첫번째로 100개의 전구의 표본을 뽑아 수명시간에 대한 평균 $x_{1}$은 100, 또 100개의 전구를 표본을 뽑아 수명시간에 대한 평균 $x_{2}는 102, 이렇게 반복적으로 표본을 뽑아서 통계량을 확인 할 수 있다. 통계량은 확률변수이므로 분포를 가진다.

표본분포

통계량의 확률분포로 통계량이 가질 수 있는 가능한 값 들에 대한 확률의 분포이다.
$\bar{X}$ 의 분포는 어떻게 될까?
$S^{2}$ 의 분포는 어떻게 될까?
모집단에서 정해진 숫자의 표본을 추출할 때 나 올 수 있는 모든 가능한 표본들로 부터 계산된 통계량들로 분포가 이러지지만 현실에서는 똑같은 크기의 표본을 여러번 추출하지 않아 표본분포는 실제 예측하는 분포가 아니라 이론적인 분포이다.

예제)

모집단에서 크기가 같은 여러개의 표본을 추출하면 추출된 각 표본의 표본평균 $\bar{x}$ 는 서로 다른 값을 가짐. 어떤 표본평균은 모집단의 평균 $\mu$ 보다 크고 어떤 표본평균은 $\mu$ 보다 작아지는 등 여러가지 값을 가지는데 표본평균 값들 $\bar{x}$ 전체의 분포가 표본분포이다.

예제)
모집단의 분포가 <표 1>과 같을 때 이 모집단에서 크기 2인 확률 표본 $X_{1},X_{2}$ 를 추출하면 표본평균 $\bar{X} = \dfrac{X_{1}+X_{2}}{2}$ 의 확률분포는?

모집단에서 표본을 두개 뽑을 때 나올 수 있는 확률로 첫번째 0을 뽑고, 두번째 0을 뽑을 확률은 0.3 $\times$ 0.3 = 0.09 값이 된다. 위 표와 같이 결합분포로 나타낼 수 있다.

표본에 대한 평균은 아래와 같다.( 2개의 표본이기 때문에 분모는 2가 된다.)

표본평균의 기대값

$E[\bar{X}] = E[\dfrac{1}{n}(x_{1} + x_{2} + \cdot \cdot \cdot + x_{n})]$
$= \dfrac{1}{n}E[x_{1}] + \dfrac{1}{n}E[x_{2}] + \cdot \cdot \cdot + \dfrac{1}{n}E[x_{n}]$
$= \dfrac{1}{n}\mu + \dfrac{1}{n}\mu + \cdot \cdot \cdot + \dfrac{1}{n}\mu$
$= n \dfrac{1}{n} \mu$
$= \mu$

즉 표본평균의 기대값은 모분산의 평균과 같다.

표본평균의 분산

$V(\bar{X}) = V(\dfrac{1}{n}(X_{1} + X_{2} + \cdot + \cdot + X_{n}))$
= $\dfrac{1}{n^{2}} V(X_{1}) + \dfrac{1}{n^{2}} V(X_{2}) + \cdot + \cdot + \dfrac{1}{n^{2}}V(X_{n})$
= $\dfrac{1}{n^{2}}\sigma^{2} + \dfrac{1}{n^{2}}\sigma + \cdot + \cdot + \dfrac{1}{n^{2}}\sigma^{2}$
= $\dfrac{\sigma^{2}}{n}$

즉 모집단의 분산은 $\sigma^{2}$ 이고 표본의 분산은 $\dfrac{1}{n}$ 만큼 줄어든다.

예) $X_{1}, X_{2}, …. , X_{25}$ independent, identically, distributed 이고, $N(\mu = 15, \sigma^{2} = 100)$ 일 때
$P[\bar{X} \le 20]$ 값은?

= $P[\dfrac{\bar{X}-15}{\dfrac{10}{5}} \le \dfrac{20-15}{\dfrac{10}{5}}] = P[Z \le 2.5] = \Phi(2.5) = 0.9938$

표본분포와 중심극한 정리

기본적으로 모집단이 정규 분포이면 표본들도 정규 분포를 따른다는 것은 이미 아는 내용이다.

중심극한 정리는 모집단이 어떤 분포일때도, 표본들은 정규분포를 따른다. (단 n > 30 이상으로 n 이 크다는 조건)

두 집단의 표본평균의 차이분포

두 개의 모집단에서 표본을 뽑는다는 가정하에
첫번째 모집단의 분포는 $N(\mu_{1}, sigma^{2}_{1})$ -> $\bar{X}_{1}$
두번째 모집단의 분포는 $N(\mu_{2}, sigma^{2}_{2})$ -> $\var{X}_{2}$

Expected value of $\bar{X}_{1} – \bar{X}_{2}$
$E[\bar{X}_{1} – \bar{X}_{2}] = E[\bar{X}_{1}] – E[\bar{X}_{2}] = \mu_{1} – \mu_{2}$

Variance of $\bar{X}_{1} – \bar{X}_{2}$
$V[\bar{X}_{1} – \bar{X}_{2}] = V(\bar{X}_{1}) + V(\bar{X}_{2}) = \dfrac{\sigma^{2}_{1}}{n_{1}} + \dfrac{\sigma^{2}_{2}}{n_{2}} $

즉 두개의 모집단이 정규분포를 따르면 두 모집단의 표본의 차이의 분포도 정규분포를 따른다.
$\bar{X}_{1} – \bar{X}_{2}$의 분포는 $N(\mu_{1} – \mu_{2} , \dfrac{\sigma^{2}_{1}}{n_{1}} + \dfrac{\sigma^{2}_{2}}{n_{2}})$

예) $\bar{X}_{1} – \bar{X}_{2}$이 -6보다 작을 확률?
$\bar{X}_{1} – \bar{X}_{2}$ ~ $N(-8, 0.69)$

$P[\bar{X}_{1} – \bar{X}_{2} \le -6]$
= $P[\dfrac{\bar{X}_{1} – \bar{X}_{2} – 8}{\sqrt{0.69}} \le \dfrac{-6 – 8}{\sqrt{0.69}}]$
= $P[Z \le 2.12] = \Phi(2.12) = 0.9830$

표본분산의 분포

$S^{2} = \dfrac{1}{n-1}\sum^{n}_{i=1}(X_{i} – \bar{X})^{2}$ 으로 표본의 분산에 대해 정의 하였다.
그럼 여기서 표본의 분산의 분포는 어떻게 정의 할까? $S^{2}$ 의 분포는 어떤 분포를 따를까?

$\dfrac{(n-1)S^{2}}{\sigma^{2}}$ 는 $\chi^{2}(n-1)$의 분포를 따른다.

표본분산에 대한 분포에 대한 설명은 아래의 페이지에 정리
https://dinonotes.com/archives/2392

답글 남기기

이메일 주소는 공개되지 않습니다.