통계적 추정 (statistical inference)

추론

통계적 추정 은 표본으로 부터 정보를 이용하여 모집단의 모수를 추측하거나 모수에 관해 추정 한 내용의 진워를 확인하는 과정이다. 추정의 방벙은 점추정과 구간추정이 있다.

점추정

점추정(point estimation)은 하나의 값으로 모수의 참값을 추정 (모집단이랑 정확하게 같지 않다.)을 하고, 미지인 모수 $\theta$의 추정에 사용되는 통계량 $\hat{\theta}(X_{1},..X_{n})$을 추정량(estimator)이라 한다. 이러한 추정량 $\hat{\theta}$ 의 관측값 $\hat{\theta}(x_{1},…,x_{n})$을 추정값(estimate) 라고 한다.

추정량 $\hat{\theta}$ 의 좋고 나쁨은 $\hat{\theta}$ 의 표본분포가 참 값 $\theta$ 주위에 어떤 형태로 나타나는가에 따라 결정되고, 표본분포의 형태는 중심값과 퍼진 정도로 살펴볼 수 있다.

추정량 $\hat{\theta}(X_{1},…,X_{n})$의 분포가 참값 $\theta$를 중심값으로 가지는 것이 바람직하다.

– 불편추정량(unbiased estimator)

편의가 발생하지 않은 추정량 -> 모수의 값을 정확하게는 모르지만 모수에서의 중심으로 약간의 편차를 가진 추정량일 것이다.

불편추정량의 분포의 퍼진 정도가 작은 추정량이 좋다. 모수 $\theta$ 의 모든 참값에 대하여 $E(\hat{\theta}) = \theta$ 이면 $\hat{\theta}(X_{1},…,X_{n})$을 $\theta$ 의 불편추정량이라 한다.

분포의 퍼진 정도가 작은 추정량이 좋은 추정량이다.  추정량의 퍼진 정도를 나타내는 척도로 추정량의 표준오차(standard error)를 사용하는데 두 불편추정량 중에서 표준오차가 작은 추정량이 더 효율적(efficient)이라고 한다.

– 표준오차( standard error)

추정량의 $\hat{\theta}$의 표준편차를 $\hat{\theta}$ 의 표준오차라 한다.

$SE(\hat{\theta}) = \sqrt{Var(\hat{\theta})}$ 로 나타낸다.

두 불편추정량 $\hat{\theta}_{1}, \hat{\theta}_{2}$중에서

$SE(\hat{\theta}_{1})  < $SE(\hat{\theta}_{2}) $ 이면 추정량이$\hat{\theta}_{1}$ 이 $\hat{\theta}_{2}$ 보다 효율적이다. 즉 SE(\hat{\theta})$ 값이 작은 것이 좋다.

– 최소분산 불편추정법(minimum variance unbiased estimation)

불편성과 효율성을 동시에 고려하여 가장 좋은 추정량을 찾는 방법

– 일치 추정량

모집단에서 동일한 사이즈의  표본을 뽑고 표본의 크기가 매우 크다면 참값에 가까운 추정값을 거의 항상 얻을 수 있는 추정량을 일치 추정량이라 한다.

크기 n인 표본을 이용한 추정량 $\hat{\theta}_{n} = \hat{\theta}(X_{1}, …. , X_{n})$에 대하여 $limit_{n->\infty}P(\hat{\theta}_{n} – \theta < \epsilon) = 1$ 이 성립하면 $\hat{\theta}_{n}$ 을 $\theta$의 일치 추정량이라 한다.

– 체비셰프의 부등식(Chebyshev inequality)

확률변수 X의 평균을 $\mu$, 분산을 $\sigma^{2}$이라 하면, 임의의 양수 $\epsilon$에 대하여

$P(|X-\mu|\ge \epsilon) \le \dfrac{\sigma^{2}}{\epsilon^{2}}$ 이 성립한다. 추정량의 일치성을 밝히는데 유용하게 사용된다.

모평균 추정

모평균의 추정량으로 표본평균, 표본의 중앙값, 표본의 최대값과 최소값의 평균 등을 고려 할 수 있다. 모 평균이 $\mu$ 이고 모 표준편차가 $\sigma$ 인 임의의 모집단으로부터 크기 n인 확률표본 $X_{1},…,X_{n}$이라 할 때 표본평균 $\bar{X} = \dfrac{X_{1}+…+X_{n}}{n}$ 은

$E(\bar{X}) = \mu, sd(\bar{X})=SE(\bar{X}) = \dfrac{\sigma}{\sqrt{n}}$ 이므로 표본평균은 모평균 $\mu$의 불편추정량이며 그 표준편차는 $\dfrac{\sigma}{\sqrt{n}}$ 이다

체비셰프의 부등식을 이용하면

$P(|\bar{X}-\mu|\ge\epsilon) \le \dfrac{Var(\bar{X})}{\epsilon^{2}}=\dfrac{\sigma^{2}}{n\epsilon^{2}}$ 이므로 표본평균은 모평균 $\mu$의 일치추정량이다.

– 모 표준편차 $\sigma$가 알려지지 않은 경우

표본평균의 표준오차 $\dfrac{\sigma}{\sqrt{n}}$ 을 알 수 없으므로 모표준편차 $\sigma$의 추정값을 사용하여야 한다. 이 때 $\sigma$ 의 추정량으로는 표본표준편차

$S=\sqrt{\dfrac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}}$ 를 사용하고 이 때 표준오차의 추정량은 $\dfrac{S}{\sqrt{n}}$이 된다.

– 모평균 $\mu$의 점추정

추정량 :  표본평균 $\hat{mu} = \bar{X}$

표준오차 : $SE(\hat{mu}) = \dfrac{\sigma}{\sqrt{n}}$

모표준편차 $\sigma$ 가 알려지지 않은 경우 표준오차의 추정량 $SE(\hat{\mu})=\dfrac{S}{\sqrt{n}}$

예제)

신품종 배추 40통을 랜덤추출하여 무게를 측정한 결과

표본평균은 $\bar{x} = \dfrac{\sum_{i=1}^{40}x_{i}}{40} = 2.7$

표본표준편차 $s = \sqrt{\dfrac{\sum_{i=1}^{40}(x_{i}-\bar{x})^{2}}{39}} = 0.397$ 이므로

모평균의 추정값은 $\hat{\mu} = 2.7$ 이고 표준오차의 추정값은 $\dfrac{s}{\sqrt{40}} = 0.063$이다.

추정치가 2.7인 경우 모평균 $\mu$가 정확히 2.7 이라고 기대는 할 수 없어 추정값의 오차에 대한 정보를 제시를 해야 한다. 오차에 대한 정보는 추정량의 표준오차를 단위로 제시하는 것이 관례이다.

예시)

정규모집단의 경우 표본평균 $\bar{X}$의 분포가 정규분포이므로

$P(|\bar{X}-\mu|\le 2 \dfrac{\sigma}{\sqrt{n}})$ =0.954

추정량 $\hat{mu} = \bar{X}$을 사용하여 $\mu$ 를 1000번 추정한다면 오차가 $\dfrac{\sigma}{\sqrt{n}}$이내인 것이 954번 정도라고 할 수 있다.

이 때. $2\dfrac{\sigma}{\sqrt{n}}$ 를 $\mu$ 의 95.4% 오차한계(limit of error)라고 한다.

표본의 크기가 큰 경우에는 중심국한정리로부터, 표본평균 $\bar{X}$의 분포가 근사적으로 정규분포이므로 $2\dfrac{\sigma}{\sqrt{n}}$ 은 95.4% 근사오차한계(asymptotic limit of error)이다.

– 추정량 $\hat{\mu} = \bar{X}$ 의 오차한계

정규모집단인 경우의 95.4% 오차한계 또는 표본크기가 큰 경우의 95.4% 근사오차한계는 $2SE(\hat{\mu}) = 2\dfrac{\sigma}{\sqrt{n}}$

정규모집단인 경유의 99.7% 오차한계 또는 표본크기가 큰 경우의 99.7% 근사오차한계는 $3SE(\hat{\mu}) = 3\dfrac{\sigma}{\sqrt{n}}$

표본크기가 크다는 의미는 대체적으로 $n\ge 30$ 정도 이고, 모 표준편차 $\sigma$가 알려져 있지 않은 경우 $\sigma$의 추정량 S를 사용하여 오차한계를 추정한다.

예제)

신품종 배추의 평균 무게 $\mu$의 추정에 대한 95.4% 오차한계는?

표준오차의 추정값이 0.063이고 표본크기가 40으로 충분히 크므로 95.4% 오차한계는 근사적으로 $2\times 0.063 = 0.126$으로 추정한다.

모비율의 추정

모집단에서 어떤 특성을 가진 비율 p에 대하여 관심이 있는 경우 이론적인 모형으로 모비율 p를 모수로 하는 베르누이 분포를 사용한다.

크기가 n인 확률표본에서 특정한 속성을 갖는 것의 개수를 X라고 하면 p의 추정량으로 표본 비율 $\hat{p}=\dfrac{X}{n}$을 사용한다.

X는 이항 분포 B(n,p)를 따르므로 E(X)=np, Var(x) = np(1-p)

표본비율 $\hat{p} = \dfrac{X}{n}$에 대하여 $E(\hat{p}) = p, SE(\hat{p})= sd(\hat{p}) = \sqrt{dfrac{p(1-p)}{n}}$ 즉 표본비율은 모 비율 p의 불편추정량이며 표준오차 $\sqrt{dfrac{p(1-p)}{n}}$이다.

– 비율의 점추정

추정량 : 표본비율 $\hat{p} = \dfrac{X}{n}$

표준오차 :  $SE(\hat{p})=\sqrt{\dfrac{p(1-p)}{n}}$

표본의 크기가 큰 경우 95.4% 근사 오차한계 : $2\sqrt{\dfrac{\hat{p}(1-\hat{p}}{n}}$

예제)

한 도시의 취업 적령 사람들 중 1,600명을 랜덤추출하여 조사한 결과 96명이 실업자였다. 이 도시의 실업율 p를 추정하고 이에 대한 95.4% 오차한계를 추정하면?

n = 1,600, x=96

$\hat{p} = \dfrac{96}{1600} = 0.06, SE(\hat{p}) = \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}} = 0.006$

실업률 p의 추정값 $\hat{p} = 0.06$

95.4% 오차한계는 근사적으로 $2\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}=0.012$

모분산의 추정

모분산은 모집단의 분포가 퍼진 정도를 나타내므로 확률표본 $X_{1},…,X_{n}$으로 부터 모분산에 관한 정보를 주는 통계량으로서

$\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}, \sum_{i=1}^{n}|X_{i}-\bar{X}|, max_{1\le i \le n}X_{i} – min_{1 \le i \le n}X_{i}$등이 있다.

이중 $E[\sum_{i}^{n}(X_{i}-\bar{X})^{2}] = E[\sum_{i=1}^{n}X_{i=1}^{2}- n\bar{X}^{2}]= \sum_{i=1}^{n}E(X^{2}_{i})-nE(\bar{X}^{2)$

$= \sum_{i=1}^{n}{Var(X_{i})+[E(X_{i})]^{2}} – n{Var(\bar{X})+[E(\bar{X})]^{2}}$

$= \sum_{i=1}^{n}(\sigma^{2}+\mu^{2})-n(\dfrac{\sigma^{2}}{n}+\mu^{2}) = n(\sigma^{2}+\mu^{2})-n(\dfrac{\sigma^{2}}{n}+ \mu^{2})$

$= (n-1)\sigma^{2}$ 이므로 $S^{2} = \dfrac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}$ 이로 정의하면 $\hat{\sigma^{2}} = S^{2}$은 모분산 $\sigma^{2}$의 분편추정량이다.

– 모분산과 모 표준편차의 점 추정

모분산의 추정량 : $\hat{\sigma^{2}} = S^{2} = \dfrac{\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}}{n-1}$

모표준편차의 추정랑 : $\hat{\sigma} = \sqrt{S^{2}} = S$

예제)

기계에 의하여 자동식으로 생상되는 플라스틱판의 두께는 표준편차가 1.5mm을 넘으면 생산공정에 이상이 있는 것으로 간주한다. 어느 날 점검에서 10개의 판을 랜덤추출하여 그 두께를 측정한 결과가 mm 단위로 다음과 같다면 플라스틱판 두께의 분산 $\sigma^{2}$과 표준편차 S를 추정하면?

226,228,226,225,232,228,227,229,225,230

$n=10, \sum_{i=1}^{10}x_{i} = 2276, \sum_{i=1}^{10}x_{i}^{2} = 518064$ 이므로 분산 $\sigma^{2}$과 표준편차 S는 각각

$s^{2} = \dfrac{\sum_{i=1}^{10}(x_{i}-\bar{x})^{2}}{9} = \dfrac{\sum_{i=1}^{10}x_{i}^{2}- (\sum_{i=1}^{10}x_{i})^{2}/10}{9}=5.1556, s = \sqrt{s^{2}} = 2.27$

구간추정

표본에서 얻어진 정보를 이용하여 미지의 모수의 참 값이 속할 것으로 기대되는 범위를 계산한다.

모수 $\theta$의 구간추정은 통계량 $\hat{\theta}_{L}(X_{1},….,X_{n}),\hat{\theta}_{U}(X_{1},…,X_{n})$또는 $\hat{\theta}_{L}, \hat{\theta}_{U}$ 을 사용해서 계산된 구간으로 표현함

$\theta$의 구간 추정량(interval estimator) : 구간 ($\hat{\theta}_{L}(X_{1},….,X_{n}),\hat{\theta}_{U}(X_{1},…,X_{n})$) $\theta$의 신뢰구간(confidence interval) 이라 부름

$\theta$의 구간 추정값(interval estimate) : 구간 추정량 ($\hat{\theta}_{L}(X_{1},….,X_{n}),\hat{\theta}_{U}(X_{1},…,X_{n})$) 의 관측값 ($\hat{\theta}_{L}(X_{1},….,X_{n}),\hat{\theta}_{U}(X_{1},…,X_{n})$)

반복적으로 추출된 표본으로부터 얻어진 구간추정값들이 참값 $\theta$ 를 포함하는 확률이 미리 정해진 한계 이상이 되도록 한다. 즉 확룰 $1-\alpha$에 대하여

$P{\theta \in (\hat{\theta}_{L}(X_{1},….,X_{n}),\hat{\theta}_{U}(X_{1},…,X_{n}))} \ge 1-\alpha$가 성립되로록 신뢰구간(\hat{\theta}_{L},\hat{\theta}_{U})을 $\theta$ 에 대한 100(1-\alpha)% 신뢰구간이라 한다.

구간 추정의 효율성은 동일한 구간추정방법을 반복적으로 사용할 때 얻어지는 신뢰구간들이 참값을 포함하는 확률 또는 그 신뢰구간들의 길이 등을 고려해야 한다.

모 평균의 구간추정

– 모분산 $\sigma^{2}$ 이 알려진 정규모집단 $N(\mu,\sigma^{2})$의 모 평균 $\mu$에 대한 구간추정

크기 n인 확률표본의 평균 $\bar{X}$ 에 대하여

$\bar{X}$~$N(\mu,\dfrac{\sigma^{2}}{n})$또는 $\dfrac{\bar{X}-\mu}{\dfrac{\sigma}{\sqrt{n}}}$ ~ $N(0,1)$ 으로 부터

$P(-Z_{\alpha/2}\le \dfrac{\bar{X}-\mu}{\sigma/\sqrt{n}} \le Z_{\alpha/2}) = 1 – \alpha$

즉 $P(\mu \in (\bar{X}-Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}, \bar{X} + Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})) = 1-\alpha$

– 모분산 $\sigma^{2}$이 알려진 정규모집단의 모평균 $\mu$에 대한 $100(1-\alpha)% 신뢰구간은

$(\bar{X}-Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}, \bar{X} + Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})$ 또는 $\bar{X}\pm Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$으로 표현한다.

예제)

한 화학약품 공장의 하루 생산량은 표준편차가 $\sigma=21$톤인 정규분포를 따른다고 할 때 이 공장에서 50일간 하루 생산량을 기록한 결과 평균은 $\bar{X}=871$톤 이라면 하루 생산량의 평균 $\mu$에 대한 90% 신뢰구간은?

표준정규분포에서 $Z_{0.05} = 1.645$이므로 $\mu$의 90% 신뢰구간은

$(871-1.645\dfrac{21}{\sqrt{50}},871+1.645\dfrac{21}{\sqrt{50}}) = (866.11,875.89)$

신뢰수준 99%, 95%, 90%에 대응되는 표준정규분포의 백분위수는 $Z_{0.005}=2.58, Z_{0.025}=1.96, Z_{0.05} = 1.645$이다

– 신뢰수준 $100(1-alpha)%$의 의미

신뢰구간 $(\bar{X}-Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{X} + Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})$ 을 사용하여 반복적으로 $\mu$에 대한 구간추정을 한다면 이들 중 대락 $100(1-\alpha)%$의 신뢰구간들이 참값 $\mu$를 포함한다.

예제)

$\sigma=10$이고 실제 평균 $\mu=100$인 정규모집단으로부터 크기 7인 확률표본을 택하여 신뢰구간(\bar{X}-1.645\dfrac{10}{\sqrt{7}}, \bar{X}+1.645\dfrac{10}{\sqrt{7}})을 형성하는 과정을 10번 행한 결과는 다음과 같다.

90%신뢰구간은 $\mu$가 이 구간에 속할 확률이 90%인 의미가 아니고 동일한 조건 하에서 표본을 반복적으로 뽑아 신뢰구간을 사용하여 반복적으로 $\mu$에 대한 구간추정을 한다면 이들 중 대략 90%에 해당하는 신뢰구간들이 참값 $\mu$를 포함한다는 의미이다.

예제)

신뢰구간 (866.11,875.89)의 의미는 사용된 구간추정방법 $(\bar{X}-1.645\dfrac{\sigma}{\sqrt{n}}, \bar{X} + 1.645\dfrac{\sigma}{\sqrt{n}})$ 이 참값을 포함한는 횟수가 100번중 90번 정도이므로 이 관측된 신뢰구간도 이중 하나일 것으로 기대한다라는 의미이다.

– 모분산 $\sigma^{2}$ 이 알려지지 않은 정규모집단 $N(\mu,\sigma^{2})$의 모 평균 $\mu$에 대한 구간추정

$P(\mu \in (\bar{X} – t(n-1,\dfrac{\alpha}{2})\dfrac{S}{\sqrt{n}},\bar{X}+t(n-1,\dfrac{\alpha}{2})\dfrac{S}{\sqrt{n}})) = 1-\alpha$

– 모분산 $\sigma^{2}$이 알려지지 않은 정규모집단의 모평균 $\mu$에 대한 $100(1-\alpha)% 신뢰구간은

$(\bar{X}-t(n-1,\dfrac{\alpha}{2})\dfrac{S}{\sqrt{N}},\bar{X}+t(n-1,\dfrac{\alpha}{2})\dfrac{S}{\sqrt{N}})$ 로 모분산 $\sigma^{2}$이 알려지지 않은 경우에 이 신뢰구간은 신뢰수준 $1-\alpha$인 신뢰구간 중에서 그 길이의 기대값이 최소로 되는 성질을 지닌다.

– 모분산 $\sigma^{2}$ 이 알려진 임의의 모집단의 모평균 $\mu$에 대한 구간 추정

$\bar{X} approximately$ ~ $N(\mu, \dfrac{\sigma^{2}}{n}$

– 모분산 $\sigma^{2}$ 이 알려진 정규모진단의 모평균 $\mu$에 대한 100(1-\alpha)% 신뢰구간은

$limit_{n->\infty}P{\mu \in (\bar{X} – Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{X}+Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})} = 1 – \alpha$

– 모분산 $\sigma^{2}$ 이 알려지지 않은 임의의 모집단의 모평균 $\mu$에 대한 구간추정

$limit_{n->\infty}P{\mu \in (\bar{X} – Z_{\alpha/2}\dfrac{S}{\sqrt{n}},\bar{X}+Z_{\alpha/2}\dfrac{S}{\sqrt{n}})} = 1 – \alpha$

– 모 평균의 구간추정 : 표본의 크기가 큰 경으 임의의 모집단의 모평균 $\mu$에 대한 $100(1-\alpha)% 신뢰구간은

모분산 $\sigma^{2}$이 알려진 경우 : $(\bar{X}-Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}},\bar{X}+Z_{\alpha/2}\dfrac{\sigma}{\sqrt{n}})$

모분산 $\sigma^{2}$이 알려지지 않은 경우 : $(\bar{X}-Z_{\alpha/2}\dfrac{S}{\sqrt{n}},\bar{X}+Z_{\alpha/2}\dfrac{S}{\sqrt{n}})$

예제)

신품종 배푸의 평균무게 $\mu$에 대한 95% 신뢰구간은?

표본평균과 표본표준편차는 $\bar{x} = 2.7, s = 0.397$ 이고 표본크기가 n=40 으로 충분히 크므로 $\mu$에 대한 95% 신뢰구간은 근사적으로 다음과 같다.

$(2.7 -1.96\dfrac{0.397}{\sqrt{40}},2.7+1)$

답글 남기기