통계량의 표본분포

표본분포

표본에 대한 통계량을 구하여 이 통계량을 이용하여 표본분포 를 확인할 수 있다. 이 표본분포 를 이용하여 모수를 추정 할 수 있고, 검정 할 수 있다.

확률표본과 표본분포

– 모집단의 분포와 확률표본

모집단의 분포는 확률밀도함수 $f(x)$로 나타내고, 모집단 $f(x)$로부터 추출된 확률표본(random sample) $X_{1}, X_{2}, ….., X_{n}$ 은 확률 밀도함수 $f(x)$를 갖는 서로 독립인 확률변수이다.

예제)
회사 A에서 생산하는 전구의 수명 시간에 대하여 전구의 수명시간의 모집단의 분포는 $f(x)$로 나타낸다. 여기에서 100를 전구를 뽑아서 수명시간 $X_{1}, X_{2}, ….., X_{100}$을 기록하면 이 값들은 독립이며 모집단의 분포 $f(x)$ 를 갖는 확률변수인데 이를 확률표본이라고 한다.

확률표본 $X_{1},X_{2},…,X_{n}$은 모집단의 가능한 모든 값을 가질 수 있음

자료 $x_{1},x_{2},….,x_{n}$ : 확률변수 $X_{1},X_{2},….,X_{n}$ 의 관측값으로 표본이라 한다.

– 통계량

확률표본의 함수로 모집단의 관심있는 특성에 따라 적절한 통계량을 선택

예제)

모 평균 $\mu$의 추론에는 통계량인 표본평균 $\bar{X} = \dfrac{\sum^{n}_{i=1}X_{i}}{n}$ 사용

모분산 $\sigma^{2}$의 추론에는 통계량인 표본분산 $S^{2} = \dfrac{\sum^{n}_{i=1}(X_{i} – \bar{X})^{2}}{n-1}$ 을 사용

예제)
표본평균 $\bar{X}$ 는 여러 가지의 관측값 $\bar{x}$ 를 가지는 확률 변수로써 $X_{1},X_{2},…X_{n}$ 의 관측값이 $x_{1},x_{2},….,x_{n}$ 이면 표본평균 $\bar{X}$ 는 $\bar{x}$를 관측값을 가진다. 첫번째로 100개의 전구의 표본을 뽑아 수명시간에 대한 평균 $x_{1}$은 100, 또 100개의 전구를 표본을 뽑아 수명시간에 대한 평균 $x_{2}는 102, 이렇게 반복적으로 표본을 뽑아서 통계량을 확인 할 수 있다. 통계량은 확률변수이므로 분포를 가진다.

– 표본분포

통계량의 확률분포로 통계량이 가질 수 있는 가능한 값들에 대한 확률의 분포이다. 모집단에서 정해진 숫자의 표본을 추출할 때 나 올 수 있는 모든 가능한 표본들로 부터 계산된 통계량들로 분포가 이러지지만 현실에서는 똑같은 크기의 표본을 여러번 추출하지 않아 표본분포는 실제 예측하는 분포가 아니라 이론적인 분포이다.

예제)

모집단에서 크기가 같은 여러개의 표본을 추출하면 추출된 각 표본의 표본평균 $\bar{x}$ 는 서로 다른 값을 가짐. 어떤 표본평균은 모집단의 평균 $\mu$ 보다 크고 어떤 표본평균은 $\mu$ 보다 작아지는 등 여러가지 값을 가지는데 표본평균 값들 $\bar{x}$ 전체의 분포가 표본분포이다.

예제)
모집단의 분포가 <표 1>과 같을 때 이 모집단에서 크기 2인 확률 표본 $X_{1},X_{2}$ 를 추출하면 표본평균 $\bar{X} = \dfrac{X_{1}+X_{2}}{2}$ 의 확률분포는?

표본분포와 중심극한 정리

모 평균 $\mu$, 모분산 $\sigma^{2}$ 인 모집단으로부터의 확률표본 $X_{1},X_{2},…,X_{n}$ 으로부터 얻어진 표본평균 $\bar{X} = \dfrac{\sum^{n}_{i=1}X_{i}}{n}$ 을 고려함

– 표본평균의 평균, 분산, 표준편차

$E(\bar{X}) = \mu$

$Var(\bar{X}) = \dfrac{\sigma^{2}}{n}$

$sd(\bar{X}) = \dfrac{\sigma}{\sqrt{n}}$

– 표본평균의 기댓값(평균)

$E(\bar{X}) = E(\dfrac{\sum^{n}_{i=1}X_{i}}{n}) = \dfrac{1}{n}E(X_{1}+\cdot\cdot\cdot+X_{n}) = \dfrac{1}{n}[E(X_{1})+\cdot\cdot\cdot+E(X_{n})] = \dfrac{1}{n}n\mu = \mu$

– 표본평균의 분산

$Var(\bar{X}) = Var(\dfrac{\sum_{i=1}^{n}X_{i}}{n}) = \dfrac{1}{n^{2}}Var(X_{1}+\cdot\cdot\cdot+X_{n}) = \dfrac{1}{n^{2}}[Var(X_{1})+\cdot\cdot\cdot+Var(X_{n})] = \dfrac{1}{n^{2}}n\sigma = \dfrac{\sigma}{n}$

표본평균 $\bar{X}$ 의 평균은 모집단의 평균과 같으며 표본의 크기 n이 커질 수록 분산은 0에 가까워져 $\bar{X}$ 는 모집단 평균인 $\mu$근처에 밀집되어 분포하게 된다.

– 비편향성

표본평균 $\bar{X}$의 평균이 모집단의 평균과 동일한 경우. 즉, 표본분포가 추정하고자 하는 모집단 평균을 중심으로 분포하고 평균적으로 보면 과대추정 또는 과소추정하는 편향(bias)가 없다는 의미이다.

– 중심극한정리

모집단의 분포가 정규분포 $N(\mu, \sigma^{2})$ 인 경우 표본평균 $\bar{X}$ 의 분포는 정규분포 $N(\mu, \dfrac{\sigma^{2}}{n})$을 따른다. 모집단의 분포가 정규분포가 아니면 표본평균 $\bar{X}$의 분포는 정규분포가 아니다. 하지만 이경우에도 표본의 크기 n이 충분히 크면 표본분포는 정규분포에 근사라는 중심극한정리로 확인 할 수 있다. 즉 n이 충분히 클 때 근사적으로 정규분포 $N(\mu, \dfrac{\sigma^{2}}{n}) 을 따르고 $ $Z = \dfrac{\bar{X} – \mu}{\sigma / \sqrt{n}}$  ~ $N(0,1)$ 이다.

모집단의 분포와 무관하게 표본의 크기가 충분히 크면 표본평균의 분포는 근사적으로 정규분포를 따른다.

예제)

대학 신입생들의 키는 모집단 평균이 168cm, 표준편차는 6cm이라고 가정하자. 100명의 신입생을 랜덤추출하는 경우 표본평균이 167cm 이상 169cm이하일 확률은?

모평균 $\mu = 168$, 모표준편차 $\sigma = 6$, n= 100 이 크므로 모집단의 분포와 상관없이 $\bar{X}$ 는 근사적으로 $N(168, \dfrac{6^{2}}{100})$을 따른다.

$P(167 \le \bar{X} \le 169) = P(\dfrac{167-168}{0.6} \le Z \le \dfrac{169-168}{0.6}) = P(-1.67 \le Z \le 1.67) = 0.9529 – 0.0475 = 0.9050$ 이 된다.

이항분포의 정규근사도 중심극한정리에서 비롯되었다. 확률변수 X가 X~B(n,p) 를 따를 때, 서로 독립이며 베르누이 분포 B(1,p)를 따르는 확률변수 $Y_{1},Y_{2},…..Y_{n}$에 대하여 $X=Y_{1}+Y_{2}+…+Y_{n}$이고 $Y_{1}+Y_{2}+…+Y_{n}$으로부터 표본 평균 $\bar{Y} = \dfrac{\sum_{i=1}^{n}Y_{i}}{n}$에 대하여 중심극한정리르 적용하면 각 $Y_{i}$는 배르누이분포 B(1,p)의 평균이 p, 분산은p(1-p) 이므로

$dfrac{X-np}{\sqrt{np(1-p)}}$ = $\dfrac{\bar{Y}-p}{\sqrt{\dfrac{p(1-p)}{n}}}$ 은 n이 클 때 근사적으로 표준정규분포 N(0,1)을 따르게 된다.

모집단이 정규분포이면 $\bar{X}$의 분포는 정규분포이고, 모집단의 분포가 정규분포의 형태에서 멀어질 수록 표본의 크기가 커야 $\bar{X}$ 의 분포는 정규분포에 가까워진다. 분포가 지나치게 치우치지 않았다면 n > 30 이면 근사정도는 만족할만하다.

– 이항분포

이항분포의 정규근사도 중심극한정리에서 비롯되었다. 확률변수 X가 X ~ B(n,p) 를 따를 때, 서로 독립이며 베르누이분포 B(1,p)를 따르는 확률변수 $Y_{1},Y_{2},….,Y_{n}$에 대하여 $X = Y_{1} + Y_{2} + ….+ Y_{n}$ 이다.

$Y_{1},Y_{2},….,Y_{n}$ 으로부터의 표본평균 $\bar{Y} = \dfrac{\sum_{i=1}^{n}Y_{i}}{n}$에 대하여 중심극한정리를 적용하면 각 $Y_{i}$는 베르누이 분포 B(1,p)의 평균이 p, 분산은 p(1-p)이므로

$\dfrac{X-np}{\sqrt{np(1-p)}} = \dfrac{\bar{Y}-p}{\sqrt{\dfrac{p(1-p)}{n}}}$ 은 n 이 클 때 근사적으로 표준정규분포 N(0,1)을 따르게 된다. 이때 표본평균 $\bar{Y} = \dfrac{\sum_{i=1}^{n}Y_{i}}{n}$는 표본에서 성공한 비율을 나타낸다.

베르누이분포 B(1,p)로 부터 크기 n인 확률표본에 대하여, 표본비율 $\hat{p}$의 분포는 n이 클 때 근사적으로 $N(p, \dfrac{p(1-p)}{n})$을 따른다. 즉 n이 크면 $Z=\dfrac{\hat{p}-p}{\sqrt{p(1-p)/n}}$ approximately ~ N(0,1)

 

답글 남기기