<신뢰구간의 추정>

추정은 모집단으로 부터 추출한 표본의 통계량을 이용하여 모집단의 모수를 추론하는 과정이고, 가설검정은 모집단 모수에 대한 연구가설의 채택 여부를 모집단으로부터 추출한 표본의 통계량을 이용하여 검정하는 일련의 과정이다. 추정은 점추정과 구간추정으로 모수를 추론한다.

1. 구간추정

구간추정은 표본분포에 모집단 평균 $\mu$가 존재할 확률을 계산하는 것이다.
추정하고자 하는 모수를 구간으로 추정한다.
모수가 존재하리라 하는 신뢰구간(confidence interval)과 그 가능성을 나타내기 위하여 신뢰 수준(confidence level) 이 필요하다. 모집단이 정규분포를 따르고 표준편차 $\sigma$ 를 아는 경우와 표준편차를 모르는 경우로 나눈다.(단 표본의 크기가 충분히 크면 표본 평균 $\overline{x}$의 표본분포는 정규분포에 근사)

 

2. 모집단이 정규분포를 따르고 표준편차 $\sigma$를 아는 경우

모집단이 평균은 $\mu$ 표준편차 $\sigma$인 정규분포를 따를 때, 표본 분포는 평균은 $\overline{x}$ 표준편차 $\dfrac{\sigma}{\sqrt{n}}$ 인 정규분포를 따른다.
모집단 평균 $\mu$ 의 구간 추정 :

$p(\mu \in [\bar{x} – z_{a/2} \cdot \frac{\sigma}{\sqrt{n}},\bar{x} + z_{a/2} \cdot \frac{\sigma}{\sqrt{n}}]) = 1 – \alpha$

콜라 500ml 병 속에 담긴 콜라 양은 정규분포를 따르고 표준편차 $\sigma$=1.20ml로 알려져 있다. 10개의 표본을 추출해서 표본평균을 구해보니 $\overline{x}$ = 503.4 ml 이다. 이때 $\mu$의 신뢰구간은?

신뢰수준 90%

$p(\mu \in [503.4 – z_{0.1/2} \cdot \frac{1.20}{\sqrt{10}},503.4 + z_{0.1/2} \cdot \frac{1.20}{\sqrt{10}}])$ = 0.9, 503.4 $\pm 1.645\cdot\frac{1.2}{\sqrt{10}}$

신뢰수준 95%

$p(\mu \in [503.4 – z_{0.05/2} \cdot \frac{1.20}{\sqrt{10}},503.4 + z_{0.05/2} \cdot \frac{1.20}{\sqrt{10}}])$ = 0.95, 503.4 $\pm 1.96\cdot\frac{1.2}{\sqrt{10}}$

3. 모집단이 정규분포를 따르고 표준편차 $\sigma$를 모르는 경우

모집단이 정규분포를 따를 때, 표본분포는 스튜던트 t 분포를 따름.
$\sigma$ 를 모른다면 표본 표준편차 s를 사용한다.
모집단 평균 $\mu$ 의 구간 추정 :

$p(\mu \in [\bar{x} – t_{a/2,df} \cdot \frac{s}{\sqrt{n}},\bar{x} + t_{a/2, df} \cdot \frac{s}{\sqrt{n}}]) = 1 – \alpha$

콜라 500ml 병 속에 담긴 콜라 양은 정규분포를 따르고 표본표준편차 s=1.20ml로 알려져 있다. 10개의 표본을 추출해서 표본평균을 구해보니 $\overline{x}$ = 503.4 ml 이다. 이때 $\mu$의 신뢰구간은?

신뢰수준 90%

$p(\mu \in [503.4 – t_{0.1/2,9} \cdot \frac{1.20}{\sqrt{10}},503.4 + t_{0.1/2,9} \cdot \frac{1.20}{\sqrt{10}}])$ = 0.9, 503.4 $\pm 1.833\cdot\frac{1.20}{\sqrt{10}}$

신뢰수준 95%

$p(\mu \in [503.4 – t_{0.05/2,9} \cdot \frac{1.20}{\sqrt{10}},503.4 + t_{0.05/2,9} \cdot \frac{1.20}{\sqrt{10}}])$ = 0.95, 503.4 $\pm 2.262\cdot\frac{1.20}{\sqrt{10}}$

(정규분포표 이용)

4. 정규분포를 사용한 모평균의 구간추정

대표본이나 모분산을 모르면 사용할 수 없다.

모표준오차 = $1.96 * \frac{\sigma}{\sqrt{n}}$

모분산을 이미 알고 있을 때 모평균 $\mu$ 에 대한 신뢰계수 95%의 신뢰구간은?

n 이 큰경우(30이상) 아직 모르는 $\sigma$ 대신 표본표준편차 s를 사용해도 좋다.(n-1와 큰 차이가 없기 때문에)

모분산을 이미 알고 있을 때 모평균 $\mu$ 에 대한 신뢰계수 99%의 신뢰구간은?

5. 표준화정규분포를 사용한 모 평균의 구간추정

모표준오차 $frac{\sigma}{\sqrt{n}} = 1$ 이므로, $Z_{x} \pm 1.96$ (95%, 99%에는 $\pm2.57$)

모평균 $\mu(=0)$에 대한 신뢰계수 95%의 신뢰구간은
$Z_{\overline{x}_{1}} – 1.96 \leq 0 \leq Z_{\overline{x}_{1}} + 1.96$  -> $\overline{X}_{1} – 1.96 * \frac{\sigma}{\sqrt{n}} \leq \mu \leq \overline{X}_{1} + 1.96 * \frac{\sigma}{\sqrt{n}}$
$Z_{\overline{x}} = \frac{\overline{x} – \mu}{\frac{\sigma}{\sqrt{n}}}$ 의 식을 대입해서 $\mu$에 대해 풀면 정규분포를 사용했을 때와 같은 식이 된다.

6. t분포를 사용한 모평균의 구간추정

표본이 크지 않고 모분산을 모를 경우에는 t 분포를 사용해 추정한다. z 분포보다 오차를 크게 예측하기 때문에 구간도 보다 넓게 추정된다.

자유도가 작아질수록 z분포일 때보다 넓게 추정된다. $t_{\overline{x}_{1}} \pm 2.26$

n = 10이고, 모분산을 모를 때 모 평균 $\mu$ 에 대한 신뢰계수 95%의 신뢰구간은?

$t_{\overline{x}_{1}} – 2.26 \leq 0 \leq t_{\overline{x}_{1}} + 2.26$ -> $\overline{x}_{1} – 2.26 \cdot \dfrac{s}{\sqrt{n -1}} \leq \mu \leq \overline{x}_{1} + 2.26 \cdot \dfrac{s}{\sqrt{n – 1}}$$t_{\overline{x}} = \dfrac{\overline{x} – \mu}{\dfrac{s}{\sqrt{n – 1}}}$ 의 식을 대입해서 $\mu$에 대해 풀면..

7. 정규분포를 사용한 모비율의 구간추정

모평균과 마찬가지로 모비율이나 모분산의 구간추정도 할 수 있다. 모비율 추정은 TV시청률 등 다양한 경우에 이용된다. 평균의 경우와 마찬가지로 관측된 표본비율이 좌우에 표준오차의 1.96배(신뢰계수 95%)를 취한 구간이 된다.

모표준오차는 모비율 p를 모르면 계산할 수 없지만 표본이 매우 큰 경우$(n \geqq 100)$ 에는 근사적으로 표본비율 $\hat{p}$ 을 이용하여 계산한다.

표본이 클 경우 오비율 p에 대한 신뢰계수 95%의 신뢰구간은(wald의 방법)

$\hat{p}_{1} – 1.96\sqrt{\frac{\hat{p}_{1}(1-\hat{p}_{1})}{n}} \geqq p \geqq \hat{p}_{1} + 1.96\sqrt{\frac{\hat{p}_{1}(1-\hat{p}_{1})}{n}}$

표본이 작을 때 본래의 신뢰계수 구간보다 좁아지므로 아래와 같은 식(Agresti와 Coull의 방법)으로 수정해 추정한다. wald의 방법과 거의 같지만, $\hat{p}$ 의 계산으로 분모(전 요소 수 n)에 4를 더하고, 분자(어떤 성질을 갖은 요소수 x)에 2을 더해 $\hat{p^\prime}$로 한다.

$\hat{p}^{\prime} – 1.96\sqrt{\frac{\hat{p}_{1}^{\prime}(1-\hat{p}_{1}^{\prime})}{n}} \geqq p \geqq \hat{p}_{1}^{\prime} + 1.96\sqrt{\frac{\hat{p}_{1}^{\prime}(1-\hat{p}_{1}^{\prime})}{n}}$

8. $X^{2}$분포를 이용한 모분산의 구간추정

모분산의 신뢰구간은 표본분산과 분편분산과 비례하는 통계량이 $x^{2}$ 분포를 따른다는점을 이용해 간접적으로 추정한다.

모분산의 신뢰구간

$\dfrac{n * s^{2}}{x_{(n-1, 2.5\%)}^{2}} \leqq \sigma^{2} \leqq \dfrac{n * s^{2}}{x_{(n-1, 97.5\%)}^{2}}$

표본크기(데이터 수) n = 5일 때 모분산 $\sigma^{2}$에 대한 신뢰계수 95%의 신뢰구간을 표본분산 $s^{2}$를 사용해 추정하면

$\dfrac{5 * s^{2}}{11.143} \leqq \sigma^{2} \leqq \dfrac{5 * s^{2}}{0.484} $

표본분산 $s^{2}$은 표본데이터에서 계산할 수 있다.
x^{2}값은 신뢰계뿐 아니라 자유도로 바뀐다.

다섯마리의(5mm, 15mm, 10mm, 11mm, 8mm) 무당벌레를 채집했다 이 무당벌레의 몸길이 모분산에 대한 99%신뢰구간을 분편분산 $\sigma^{2}$을 사용해 추정해보자

$\dfrac{(5-1)*13.7}{14.860} \leqq \sigma^{2} \leqq \dfrac{(5-1)*13.7}{0.207}$

모분산에 대한 99% 신뢰구간은 (2.69mm^{2}, 264.73mm^{2})
불편분산 $\hat{\sigma^{2}} = \dfrac{\sum(x-\overline{x})^{2}}{n-1} = 13.7$
자유도 4, 상측 0.5%인 $x^{2}$ 을 구한다.

9. 정규분포를 이용한 모상관계수의 구간추정

표본상관계수 r에 피셩의 z변환을 한 통계량이 근사적으로 정규분포를 따른다는 점을 이용해서 추정한다 (신뢰계수 95%)

하한값 : $Z_{r} – \dfrac{1.96}{\sqrt{n-3}}$
상한값 : $Z_{r} + \dfrac{1.96}{\sqrt{n-3}}$

모 상관계수 p에 관한 신뢰계수 95%의 신뢰구간

$Z_{r1} – \dfrac{1.96}{\sqrt{n-3}} \leqq z_{\rho} \leqq Z_{r1} + \dfrac{1.96}{\sqrt{n-3}} \ \ z_{\rho} = \dfrac{1}{2}log_{e}(\dfrac{1+p}{1-p})$

이것은 z변환된 값으로는 알기 어려우므로 역변환해서 되돌린다.

$\dfrac{e^{2Z_{L}}-1}{e^{2Z_{L}}+1} \leqq \rho \leqq \dfrac{e^{2Z_{U}}-1}{e^{2Z_{U}}+1}$

 


0개의 댓글

답글 남기기

이메일 주소를 발행하지 않을 것입니다.