<추측통계학>

표본의 정보를 사용하여 모집단의 특성을 추측한다. 즉 모집단으로 부터 추출한 표본의 통계량을 이용하여 모집단의 모수를 추론하는 과정이다.

ex : 보험사고 발생횟수의 예측, 선거속보, TV시청률, 신약의 유효성 확인, 사료 첨가제의 결정, 맛 관능시험 분석

점추정은 추정하고자 하는 모수를 하나의 수치로 추정으로 A대학교 학생의 평균키는 172cm 이다.
구간추정은 추정하고자 하는 모수를 구간으로 추정하고, 모수가 예상되는 신뢰구간과 그 가능성을 나타내기 위한 신뢰 수준이 필요하다.
예를들어 A대학교 평균키가 170cm 에서 174cm 사이에 존재할 확률이 95%

1. 불편추정

불편추정이란 참값인 모수와 비교해 큰 쪽에도 작은 쪽에도 치우치지 않는 통계량을 표본에서 추정하는 것을 말한다.
통계량을 계산하게 되면 참값인 모수보다도 커지기도 하고 작아지기도 한다. 이러한 치우침을 수정한 통계량(불편추정량)을 얻는 것이 불편추정이다.
추정량은 확률변수이면 확률분포를 가지고 있고 이른 표본분포(sampling distribution)라 부른다.
사실 통계학의 방법으로 계산한 분산(표본분산) 은 참값(모분산) 보다 조금 작아진다. 물론 표본표준편차도 모표준편차보다 작아진다.

$표본분산 s^{2}=\dfrac{\sum(x_{i} – \overline{x})^{2}}{n} \leqq \ 모분산 \sigma^{2} = \dfrac{\sum(x_{i} – \mu)^{2}}{n}$

(표본의 값을 가지고 참값을 추정하는 부분이라 참값에 대한 정보는 가지고 있지 않다. 그래서 위 식의 $\mu$ 값은 알고 있는 값이 아니다.)

위 식과 같이 표본분산은 모분산보다 작기 때문에 자유도를 수정하여 불편추정 수정을 한다. 표본분산 $s^{2}$ 식의 분모인 n(표본 크기)에서 1을 빼서 값을 조금 작게 함을로써 모 분산에 가까이 가게 한다.

불편 분산 $\widehat{\sigma}^{2} = \dfrac{\sum(x_{i} – \overline{x})^{2}}{n-1}$

불편표준편차 $\widehat{\sigma}= \sqrt{\widehat{\sigma}^{2}} = \sqrt{\dfrac{\sum(x_{i} – \overline{x})^{2}}{n-1}}$

불편추정량(정리)를 해보면 표본의 정보만을 사용해, 모수에 대해 치우침이 없도록 추정하는 통계량이고, 기호는 표준 통계량에는 알파벳, 모수에는 그리스문자, 분편추정량에는 그리스 문자에 hat$(\hat)$을 써서 구별한다. 평균에 대해서는 모평균보다 커질 것인지 작아질 것이지 모르게 때문에 수정할 수 없어 표본평균을 그대로 불편평균이라고 생각한다.

2. 자유도

자유도란 통계량 계산에 사용하는 관측 데이터(변수) 중, 자유롭게 값을 취할 수 있는 데이터의 수를 말한다. 표본 크기에서 제약 조건의 수를 뺀 값이 자유도의 크기이다. 제약 조건의 수는 표본 데이터를 사용한 계산식의 수이다. 즉 자유도를 사용해 불편추정량이나 검정통계량의 계산한다.

a,b,c 라는 3개의 관측 데이터에서 평균을 계산하는 사례를 생각한다. (n = 3)

답이 정해져 있지 않았다면(즉 제약이 없다면) a,b,c 3개의 데이터에는 어떤 값을 넣어도 된다.(df = 3)

만약 평균이 5로 정해져 있다면(즉 제약이 있다면) 어떤 값을 넣어도 되는 데이터는 2개로 감소한다. (df = 2, ? 의 값은 10으로 정해질 수 밖에 없다.)

3. 불편분산 자유도

표본에서 평균등을 계산할 때마다 자유도가 하나씩 감소한다. 표본평균을 한 개 사용하는 불편분산의 자유도는 n – 1 이다. 어떤 모집단에서 무작위추출한 표본이 있다고 가정을 하자. 이 경우 각 데이터 값을 알기 때문에 표본평균 값도 정해진다.
불편분산 계산식을 보면

$\widehat{\sigma}^{2} = \dfrac{\sum(x_{i} – \overline{x})^{2}}{n -1}$ df = n-1

$\overline{x}$ 표본평균은 상수이므로 한 개의 제약 조건이 발생했다. 불편분산의 자유도 df = n-1 이다.

모분산 계산식을 보면

$\sigma^{2} = \dfrac{\sum(x_{i} – \overline{x})^{2}}{n}$ df = n

$\mu$ 모평균은 아직 몰라 제약조건에 들어가지 않는다. 모분산의 자유도 df = n

하지만 자유도가 반드시 n-1 이 되는것이 아니다. 분산분석이나 독립성 검정에는 더 많은 제약이 있다. 무상관 검정은 n-1 라는 자유도를 가진다.

4. 중심극한정리(central limit theorem, CLT)

모 집단의 분포와 상관없이 표본의 크기가 크다면 (n > 30) 표본 평균의 분포가 정규분포에 가까워 진다. CLT에 의해 모집단의 분포를 모르더라도 모집단의 평균 $\mu$ 를 추정할 수 있다.

5. 표본통계량의 분포 – 평균의 분포

표본푼포(표본통계량의 분포)

표본은 몇 번이든 추출할 수 있고, 그리고 통계량의 값은 다르기 때문에 불규칙한 분포를 보인다. 표본분포의 불규칙한 분포 크기(표준편차) 를 표준오차라고 하고, 오차 범위를 예측하는데 사용한다.

표본평균분포(정규분포)

표본의 크기가 충분히 커지면 표본평균 $\overline{x}$ 의 분포는 정규분포를 따른다. 모 표준 오차 $\dfrac{\sigma}{\sqrt{n}}$

표준화한 표본평균의 분포(z분포)

표준화한 표본평균 $Z_{\overline{x}}$ 는 표준정규분포(z 분포)를 따른다. 표준화 했으므로 $\mu$ 는 0이 된다. 모 표준 오차 $\dfrac{\sigma}{\sqrt{n}}$ 된다.
표본평균 $\overline{x}$를 표준화한 통계량

$Z_{\overline{x}} = \dfrac{\overline{x}-\mu}{\dfrac{\sigma}{\sqrt{n}}}$

표준화한 표본평균의 분포(t 분포)

모 분산을 알 수 없기 때문에 불편표준오차로 스튜던트화한 표본평균 $t_{\overline{x}}$는 t 분포를 따른다. 불편표준오차 $\frac{S}{\sqrt{n-1}}$ 이다.
표본평균 $\overline{X}$ 를 스트던트화한 통계량

$t_{\overline{x}} =\dfrac{\overline{x} – \mu}{\dfrac{S}{\sqrt{n-1}}}$

6. 표본통계량의 분포 – 비율의 분포

표본비율의 분포(정규분포)

표본비율 $\hat{p}$ 의 분자인 ‘어떤 성질을 갖는 요소의 수 x’는 이항분포를 따른다. 그러므로 표본비율도 표본의 크기 n 이 커지면( n > 100)  정규분포를 따른다.

모표준오차 : $\sqrt{\frac{p(1-p)}{n}}$

표본비율 $\hat{p}$ = $\dfrac{어떤 성질을 갖는 사람이나 개체 등 요소의 수 x}{표본의 건 요소수 n}$

어떤 성질을 가지는 요소(사람 등) 가 모집단에서 차지하는 비율을 모 비율 p, 표본에서 차지하는 비율을 표본비율 $\hat{p}$ 라고 한다. 어는 정당의 지지율을 표본조사했을 때 (n =100), 30명이 지지한다고 대답한 경우(x = 30)의 표본비율 $\hat{p}$는 0.3이 된다.

어떤 성질을 갖는 요소의 수 x를 확률변수로 한 이항분포의 평균은 np, 분산은 np(1-p)가 된다.
-> 표본비율의 평균(즉 참값인 모비율)은 np를 모집단의 전 요소의 수 n으로 나눈 값 p, 마찬가지로 모분산은 np(1-p)를 전 요소의 수 n으로 나눈 p(1-p)가 된다.
-> 모분산이 p(1-p) 이므로 모표준편차는 그 제곱근을 취한 $\sqrt{p(1-p)}$ 가 되고, 모표준오차는 모표준편차를 $\sqrt{n}로$ 나눈 $\sqrt{\frac{p(1-p)}{n}}$ 이 된다.
n이 충분히 클때 (약 100이상), 이항분포는 정규분포에 가까워지므로 표본비율 $\hat{p}$는 평균(모비율) p, 모표본오차 $\sqrt{\frac{p(1-p)}{n}}$이 된다.

7. 표본통계량의 분포 – 분산의 분포

표본분산의 분포($x^{2}$ 분포)

표본분산 $s^{2}$이 따르는 확률분포는 없으므로 $x^{2}$ 분포를 따르도록 표본분산 $s^{2}$, 또는 불편 분산 $\hat{\sigma}^{2}$과 비례하는 통계량으로 변환한다. 모분산의 구간추정이나 검정에서 이용한다.

표본분산이나 불편분산에 비례하는 통계량으로 변환하는 법

모 평균 $\mu$를 아직 몰라 표본평균 $\overline{x}$를 한개 사용한 $x^{2}$ 값은, 자유도가 한 개 감소한 n-1이 된다.

$X^{2}(n) = \frac{\sum(x-\mu)^{2}}{\sigma^{2}} \longrightarrow X^{2}_{(n-1)} = \frac{\sum(x-\overline{x})^{2}}{\sigma^{2}}$

$x^{2}(n-1)$의 분자는 다음의 표본분산이나 불편분산의 분자와 같다.

표본분산 $S^{2} = \frac{\sum(x-\overline(x)^{2}}{n}$
불편분산 $\hat{\sigma}^{2} = \frac{\sum(x-\overline{x})^{2}}{n-1}$

위 식으로 부터 다음과 같은 관계식이 성립된다.

$\sigma^{2} * X^{2}(n-1) = n * S^{2}$ or $(n-1) * \hat{\sigma}^{2}$

이것을 x^{2}에 대해 풀면 표본분산이나 불편분산과 비례하는 아래의 통계량을 각각 얻을수 있다. x^{2} 분포를 따른다.

$X^{2}(n-1) = \frac{n * S^{2}}{\sigma^{2}}$ or $\frac{(n-1) * \hat{\sigma^{2}}}{\sigma^{2}}$

8. 표본통계량의 분포 – 상관계수의 분포

모상관계수 $\rho$가 0이 아닌 경우, 표본상관계수 r은 아래 그림과 같은 기울어진 분포를 따르기 때문에 이대로는 사용할 수 없다. 그러나 피셔의 z변환을 하면 정규분포를 따르기 때문에, 모상관계수의  신뢰구간의 추정으로 사용할 수 있게 된다.

상관계수의 분포(정규분포) [p $\neq$ = 0 의 경우] 피셔의 z 변환을 하면 표준편차 $\dfrac{1}{\sqrt{n-3}}$ 인 정규분포로 변환된다.

피셔의 z변환

$z_{r} = \dfrac{1}{2}\ln(\dfrac{1+r}{1-r})$

상관계수의 분포(t분포)[$\rho$ = 0 의 경우]

모상관계수 $\rho$가 0, 즉 무상관인 경우, 표본상관계수 r은 스튜던트화에 t분포를 따른다. 상관계수의 검정(무상관 검정) 에 이용할 수 있다.

분편표준오차

$\sqrt{\dfrac{1-r^{2}}{n-2}}$ (상관계수에서는 변량 2개의 평균값을 사용하기 때문에 자유도는 n-2가 된다.)

표본상관계수 r을 스튜던트화한 통계량

$t_{r} = \dfrac{r\sqrt{n-2}}{\sqrt{1-r^{2}}}$

$\dfrac{r-\rho}{\sqrt{\dfrac{1-r^{2}}{n-2}}} = \dfrac{r-0}{\sqrt{\frac{1-r^{2}}{n-2}}}  \because p=0$


0개의 댓글

답글 남기기

이메일 주소를 발행하지 않을 것입니다.