Two Sample T Test – statistics

two sample t test 는 두 모집단의 분산을 모를 때 두집단이 차이가 있는지 없는지 T 분포를 이용하여 검정하는 방법이다.

예 1) 지역 환경에 따라 학력에 차이가 있는지를 알아보고자 한다. 두 도시의 고등학교 1학년 학생 중에서 각각 150명과 200명을 독립적으로 랜덤추출하여 동일한 시험을 실행한다. 이 때 시험 성적을 비교함으로써 두 도시 학생의 학력을 비교할 수 있다.

위 예제 처럼 두 도시의 고등학교 1학년이라는 두집단이 차이가 있는지 검정하는 방법이다.

1. 독립표본

두 모집단이 정규분포를 따른다는 가정 이외에 두 모 집단은 미지의 동일한 모분산을 갖는다는 조건, 즉 $\sigma_{1}^{2} = \sigma_{2}^{2} = \sigma^{2}$ 라는 가정이 필요하다.(등분산)

자료의 구조는 : 독립인 확률 표본이다.

$X_{1},X_{2}, .. , X_{n} :$ 모평균 $\mu_{1}$, 모분산 $\sigma_{1}^{2}$ 인 $N(\mu_{1}, \sigma_{1}^{2})$ 에서 추출한 확률표본

$Y_{1},Y_{2}, .. , Y_{n} :$ 모평균 $\mu_{2}$, 모분산 $\sigma_{2}^{2}$ 인 $N(\mu_{2}, \sigma_{2}^{2})$ 에서 추출한 확률표본

2. 독립표본의 통계량

모집단 1에서의 확률표본 $X_{1},X_{2}, .. , X_{n} $

$\bar{X} = \dfrac{1}{n_{1}}\sum_{i=1}^{n}X_{i}, \ \ \ S_{1}^{2} = \dfrac{\sum_{i}^{n}(X_{i} – \bar{X})^{2}}{n_{1} – 1}$

모집단 2에서의 확률표본 $Y_{1},Y_{2}, .. , Y_{n} $

$\bar{Y} = \dfrac{1}{n_{2}}\sum_{i=1}^{n}Y_{i}, \ \ \ S_{2}^{2} = \dfrac{\sum_{i}^{n}(Y_{i} – \bar{Y})^{2}}{n_{2} – 1}$

$\bar{X} \sim N(\mu_{1}, \dfrac{\sigma_{1}^{2}}{n_{1}})$

$\bar{Y} \sim N(\mu_{2}, \dfrac{\sigma_{2}^{2}}{n_{2}})$

3. 두집단의 평균과 분산

$E(\bar{X} – \bar{Y}) = E(\bar{X}) – E(\bar{Y}) = \mu_{1} – \mu_{2}$

$Var(\bar{X} – \bar{Y}) = Var(\bar{X}) + Var(\bar{Y}) = \sigma(\dfrac{1}{n_{1}} + \dfrac{1}{n_{2}})$

4. 등분산 $\sigma^{2}$의 합동 추정량

$S_{p} = \dfrac{\sum_{i=1}^{n_{1}}(X_{i}-\bar{X})^{2} + \sum_{i=1}^{n_{2}}(Y_{i} – \bar{Y})^{2}}{n_{1} + n_{2} – 2} = \dfrac{(n_{1} -1)S_{1}^{2} + (n_{2} – 1)S_{2}^{2}}{n_{1} + n_{2} -2}$

$\bar{X} – \bar{Y}$의 표준화된 통계량의 분포는 N(0,1) 이며 $(n_{1} + n_{2} – 2) S_{p}^{2} / \sigma^{2}$의 분포는 자유도는 $n_{1} + n_{2} – 2$인 $x^{2}$ 분포에 따른다.

$Z = \dfrac{(\bar{X} – \bar{Y}) – (\mu_{1} – \mu_{2})}{\sigma\sqrt{\dfrac{1}{n_{1}} + \dfrac{1}{n_{2}}}} \sim N(0,1)$

$\chi^{2} = \dfrac{(n_{1} + n_{2} – 2)S_{p}^{2}}{\sigma^{2}} \sim \chi^{2}(n_{1} + n_{2} – 2)$

따라서 t 분포의 정의로부터

$\dfrac{Z}{\sqrt{\dfrac{\chi^{2}}{(n_{1} + n_{2} – 2)}}}$ 는 자유도 $n_{1} + n_{2} – 2$ 인 t 분포에 따르며, 이를 요약하면

$T = \dfrac{(\bar{X} – \bar{Y}) – (\mu_{1} – \mu_{2})}{S_{p}\sqrt{\dfrac{1}{n_{1}} + \dfrac{1}{n_{2}}}} \sim t(n_{1} + n_{2} – 2)$

5. two sample t test 신뢰구간

$\mu_{1} – \mu_{2}$에 대한 100(1 – $\alpha$)% 신뢰구간 : $\sigma_{1}^{2} = \sigma_{2}^{2} = \sigma^{2}$ 이고, $\sigma^{2}$ 을 모르는 경우

$(\bar{X} – \bar{Y}) \pm t(n_{1} + n_{2} – 2, \dfrac{\alpha}{2})$.  $S_{p}\sqrt{\dfrac{1}{n_{1}} + \dfrac{1}{n_{2}}}$

6. two sample t test 가설

$H_{0} : \mu_{1} – \mu_{2} \le \delta_{0} \ , H_{1} : \mu_{1} – \mu_{2} > \delta_{0},  기각역(유의수준 \ \alpha):  T \ge t(n_{1} + n_{2} – 2, \alpha)$

$H_{0} : \mu_{1} – \mu_{2} \ge \delta_{0} \ , H_{1} : \mu_{1} – \mu_{2} < \delta_{0},  기각역(유의수준 \ \alpha):  T \le -t(n_{1} + n_{2} – 2, \alpha)$

$H_{0} : \mu_{1} – \mu_{2} = \delta_{0} \ , H_{1} : \mu_{1} – \mu_{2} \neq \delta_{0},  기각역(유의수준 \ \alpha):  |T| \ge t(n_{1} + n_{2} – 2,  2 / \alpha)$

7. two sample t test 가설검정

$\mu_{1} – \mu_{2}$에 대한 가설검정 : $\sigma_{1}^{2} = \sigma_{2}^{2} = \sigma^{2}$ 이고, $\sigma^{2}$ 을 모르는 경우

검정통계량 : $T = \dfrac{(\bar{X} – \bar{Y}) – \delta_{0}}{S_{p}\sqrt{\dfrac{1}{n_{1}} + \dfrac{1}{n_{2}}}}$

예2)

<사료1 와 사료 2의 상자그림>

두 자료에 대하여 각각의 사분위수 범위가 비슷하고, 이상점도 나타나지 않으며, 대칭성도 크게 벗어나지 않음을 알 수 있다. 따라서 이 경우에 사료에 따른 우유 생상량은 공통분산을 갖는 정규분포를 따른다고 가정하여도 된다.

사료 1 통계량

$\bar{x} = 45.635, \sum(x_{i} – \bar{x})^{2} = 99.75$

사료 2 통계량

$\bar{y} = 43.2, \sum(y_{i} – \bar{y})^{2} = 68.40$

$S_{p}^{2} = \dfrac{\sum(x_{i} – \bar{x})^{2} + \sum(y_{i} – \bar{y})^{2}}{n_{1} + n_{2} – 2}$

$= \dfrac{99.75 + 68.40}{29} = 5.798$

$S_{p} = \sqrt{S_{p}^{2}} = 2.408$

$H_{0} : \mu_{1} \le \mu_{2}$.   $H_{1} : \mu_{1} > \mu_{2}$

기각역 :

$T = \dfrac{\bar{X} – \bar{Y}}{S_{p}\sqrt{\dfrac{1}{n_{1}} + \dfrac{1}{n_{2}}}} > t(29, 0.05) = 1.699$

검정통계량 관측값

$T = \dfrac{45.625 – 43.2}{2.408\sqrt{\dfrac{1}{16} + \dfrac{1}{15}}} = 2.782$

이므로 유의수준 5% 에서 사료 1이 더 효과적이라고 할 수 있다.

(2) 자유도 29 이고, t 분포에서 t(29, 0.025) = 2.045 이므로 $\mu_{1} – \mu_{2}$ 에 대한 95% 신뢰구간

$2.435 \pm 2.045 \times 2.408 \sqrt{\dfrac{1}{16} + \dfrac{1}{15}} = (0.66, 4.19)$

404 - Not found

Document not found

Related Posts

답글 남기기

이메일 주소는 공개되지 않습니다.