<확률분포>

1. 확률과 확률분포

– 주사위나 동진을 던질 때 뭐가 나올지, 그 결과는 실제로 던져 보기 전에 알수 없지만 동전을 던질 때 “앞면이 나올가능성은 50%” 이다 라고 말하는 것처럼 결과를 예측 할 수 있다. 결과는 우연히 정해지는 것이지만, 그 결과를 예측할 때는 확률이나 확률분포를 이용한다.

2. 확률변수

– 확률 실험의 표본 공간에서 각 결과에 숫자 값을 할당하는 함수 또는 규직이다.  예를 들어 2개의 동전을 던지는 실험을 할 때 동전이 나올 표본공간은 S = [(H,H),(H,T),(T,H),(T,T)] 이다. 각 확률은 [$\dfrac{1}{4},\dfrac{1}{4},\dfrac{1}{4},\dfrac{1}{4}$] 의 확률로 된다. 여기서 확률변수 X는 동전의 앞면을 1, 뒷면을 0으로 하여 2개의 동전을 던져 얻는 결과의 합

표뵨공간 확률변수(x) x값을 가질 확률
(T,T) 0 $\dfrac{1}{4}$
(H,T),(T,H) 1 $\dfrac{1}{2}$
(H,H) 2 $\dfrac{1}{4}$

3. 확률분포

확률 변수가 가질 수 있는 모든 값과 그 확률을 나타낸것으로 여러가지 확률 분포로 나타낸다

4. 확률이 같은 분포 – 균일 분포

이산균일분포로 주사위를 던져 각 눈이 나올 확률, 다트게임에서 당선번호를 정할 때 각 번호가 적중할 확률등은 확률이 같고 확률 변수가 1, 2,3,4 .. 이라는 이산적인 값을 취해 균일분포를 따른다. x = {1, 2, 3, ….n} 의 값을 취할 때

$\mu = \dfrac{n+1}{2}, (평균)$
$\sigma^{2} = \dfrac{n^{2} – 1}{12}, (분산)$

다트판의 정해진 위치부터 다트가 있는 곳까지의 각도를 잰 값을 확률변수라고 생각하면 된다. 이 확률 변수는 0에서 360의 값을 연속적으로 취하므로 분포를 따른다.
x가 [a,b] 사에 있을 때

$\mu = \dfrac{a+b}{2}, (평균)$
$\sigma^{2} = \dfrac{(b -a )^{2} }{12},(분산)$

5. 이산확률 분포 – 베르누이

동전 던지기에서 앞면이 나왔을 때 성공(x=1) 뒷면이 나왔을 때 실패(x=0) 와 같이 결과가 두 종류밖에 없는 시행을 베르누이 시행이라고 한다.
성공확률은($\pi$) 모든 시행에 있어서 일정하게 유지가 된다.

$E(x) = \pi$
$V(x) = \pi(1-\pi)$

6. 이산확률 분포 – 이항분포

베르누이 실험을 n 번 반복할 때 성공횟수
예를들면 1회의 시행으로 성공할 확률 P(x=1) = $\dfrac{1}{2}$ = 0.5
1회의 시행으로 실패할 확률 p(x=0) = 1 – p(x=1) = $\dfrac{1}{2}$ = 0.5
1회째에 성공하고 2회째와 3회째에 실피할 확률 p(x=1,x=0,x=0) = p(x=1)*p(x=0)*p(x=0) = 0.5 $\times 0.5^{2}$ = 0,125
3회의 시행으로 1회 성공하고 2회 실패할 확률 (3회의 시행으로 1회 성공하고 2회 실패하는 조합의 수) $\times$ p(x=1,x=0,x=0) = 3 $\times$ 0.125 = 0.375
즉, p=p(x=1) 일때 n번의 시행으로 m번 성공할 확률은 $_{n}\mathrm{C}_{m}\times p^{m}\times(1-p)^{n-m}$

$E(x) = n\pi$
$V(x) = n\pi(1-\pi)$

7. 종 모양 분포 – 정규분포

정규분포는 평균값을 중심으로 대칭을 이루는 종 모양을 분포이다. 이항 분포에서 시행 횟수를 늘리면 그 분포는 정규분포에 가까워진다. 아래의 그림은  주사위를 10번 던져 1이 나온 횟수를 기록한 것이다. 시행횟수를 점차 늘리면서 분포형태가 변화한다. 시행이 늘어날수록 그 분포는 정규분포의 형태가 된다.

정규분포의 확률 밀도 함수의 식은

$f(X) = \dfrac{1}{\sqrt{2\pi}\sigma}e^{-\dfrac{(x-\mu)^{2}}{2\sigma^{2}}}$

이고 확률 밀도 함수의 면적은 1 이다. $\mu$는 확률 변수 x의 평균, $\sigma$는 x의 표준편차 이다. 이 함수를 적분하면 확률을 계산할 수 있다.

표기 : X ~ N($\mu$,$\sigma^{2}$)
pdf : $f(X) = \dfrac{1}{\sqrt{2\pi}\sigma}e^{-\dfrac{(x-\mu)^{2}}{2\sigma^{2}}}$
정의역 : ($-\infty,\infty$)
평균 : E(x) = $\mu$
분산 : Var(x) = $\sigma^{2}$

8. 척도가 없는 분포 – 표준 정규 분표

표준 정규 분포는 정규분포의 형태에서 표준화를 진행한다.  이 때 표준화란 데이터의 평균 값을 0으로, 표준편차(분산)을 1로 변환하는 것이다.

표준화 변량 = $z_{i} = \dfrac{x_{i} – \mu}{\sigma}$

표기 : X ~ N(0,1)
pdf : f(z) = $ \dfrac{1}{\sqrt{2\pi}}e^{-\dfrac{z^{2}}{2}}$
정의역 : ($-\infty,\infty$)
평균 : E(x) = 0
분산 : Var(x) = 1
z = $\dfrac{x – \mu}{\sigma}$ 또는 $\dfrac{x – \bar{x}}{\sigma}$

NO 원래데이터($x_{i}$) 편차($x_{i} – \overline{x})$ 표준변화량($z_{i}$)
1 -10 -5.2 -1.05
2 -8 -3.2 -0.65
3 -7 -2.2 -0.44
4 -3 1.8 0.36
5 4 8.8 1.78
평균($\mu$) -4.8 0.0 0.00
표준편차($\sigma$) 4.96 4.96 1.00

표준 정규 분포 즉 표준화를 하는 이유는 뭘까? 예를 들어 시험 난이도는 매번 달라지고 90점을 받는다고 나의 실력 향상이 어떤지 알 수 없다. 어려운 시험에서 80점을 받는 것인지 아니면 쉬운 시험에서 90점을 받는지 확인해야 한다. 즉 전체 평균이 낮은 시험에서 내가 받은 시험의 점수의 편차 (80점 – 평균) 가 클수록 실력 향상이 되었다고 볼 수 있다. 평균 점수가 낮을수록 편차는 커진다.

수학 50점(평균:30, 표준편차:8, z=2.50)  영어 90점(평균:80, 표준편차:6, z=1.67)을 비교하면 영어 성적이 더 좋아 보이지만 표준화 변환하면 수학이 오히려 학급의 상위에 있다는 것을 알 수 있다.

표준 점수
$T_{i} = 50 + 10 \times (\dfrac{X_{i} – \mu}{\sigma})$ 으로 계산이 되고 수학과 영어의 표준 점수는 수학은 75.0, 영어는 66.7 이다.

$T_{수학} = 50 + 10 \times (\dfrac{(50-30)}{8}) = 50+10 \times 2.50 = 75.0$
$T_{영어} = 50 + 10 \times (\dfrac{(90-80)}{6}) = 50+10 \times 1.67 = 66.7$

다른 예를 들어 시중에 판매되고 있는 액체비누의 양(X)는 $\mu$ = 600 ml 이고 $\sigma$ = 5 ml 인 정규분포를 따른다고 할 때 다음의 확률을 계산하여라.

P(X > 592) = P($\dfrac{X – \mu}{\sigma} > \dfrac{592 – \mu}{\sigma}) = P(Z > \dfrac{592-600}{5}) = P(Z > -1.6) = 0.9452$
P(X < 603) = P($\dfrac{X – \mu}{\sigma}  \le \dfrac{603 – \mu}{\sigma}) = P(Z \le \dfrac{603-600}{5}) = P(Z \le 0.6) = 0.7257$

9. 데이터의 위치를 알 수 있다.

시그마 구간 : 표준화 하면 데이터가 표준 정규 분포의 어디에 있는지 대략적인 위치를 알 수 있다.

$1\sigma $ 구간 (68.3%)   $2\sigma$ 구간 (95.4%)   $3\sigma$ 구간(99.7%)$

10. 분포의 형태

왜도는 분포가 좌우 대칭인지, 좌우로 치우친 정도를 나타내는 지표를 나타낸다. 표본 데이터에서 왜도 계산식은 아래와 같다.
$S_{w} = \dfrac{1}{n}{(\dfrac{x_{1}-\overline{x}}{s})^{3} + … + (\dfrac{x_{n}-\overline{x}}{s})^{3}} = \dfrac{1}{n}\sum_{i=1}^{n}(\dfrac{x_{i}-\overline{x}}{s})^{3}$

첨도는 분포의 뾰족한 정도를 나타내는 지표이다. 첨도 계산식은 아래와 같다
$S_{k} = \dfrac{1}{n}{(\dfrac{x_{1}-\overline{x}}{s})^{4} + … + (\dfrac{x_{n}-\overline{x}}{s})^{4}} – 3 = \dfrac{1}{n}\sum_{i=1}^{n}(\dfrac{x_{i}-\overline{x}}{s})^{4} – 3$

* 이상치 검출
왜도나 첨도가 0에서 크게 벗어난 값을 취한 경우, 극단적으로 값이 크거나 작은 수치가 섞여 있을 가능성이 있다.

계급 데이터 왜도 첨도
바른데이터 131 140 134 124 137 132 -0.43 -0.60
입력오류데이터 131 140 134 1240 137 132 1.79 1.20

11. 드물게 일어나는 분포 – 포아송 분포

포아송 분포는 시행 횟수가 아주 많고(n이 크다), 사상 발생의 확률(p)가 아주 작을 때의 이항 분포이다. “한 달에 생산한 물건 중 불량품의 수”, “어느 교차점에서 교통사고가 일어나는 수”, “어느 지역에 떨어지는 벼락 건수” 같이 드물게 일어나는 사항의 확률분포를 나타낸다.

pdf : $f(x) = \dfrac{e^{-\lambda}\lambda^{x}}{x}$
e : 네이피어 수, $\lambda$:평균값(시행횟수 n \times 확률 p), x:사상이 일어나는 횟수
포아송 분포에서 분산은 평균값과 같다.

예를들면 공장에서 전구를 생산하고 있다. 그리고 공장에서 불량품 발생은 500개에 1개(0.2%) 이다. 따라서 1000개의 전구(n=1000)를 생산할 때, 평균 불량품 개수($\lambda$)는, 생산 개수(n) * 불량품 발생률(p) = 1000 * 0.002  = 2개가 된다.
포아송 분포를 이용하면 불량품 0개 (x=0) 일 확률

f(0) = $\dfrac{e^{-2}2^{0}}{0!} = \dfrac{0.1353…}{1} = 0.135$
f(1) = $\dfrac{e^{-2}2^{1}}{1!} = \dfrac{0.1353… * 2}{1} = 0.271$
f(2) = $\dfrac{e^{-2}2^{2}}{2!} = \dfrac{0.1353… * 4}{2 * 1} = 0.271$

이 공장에서 불량품이 2개 이하에 그칠 확률은

f(0) + f(1) + f(2) = 0.135 + 0.271 + 0.271 = 0.677(67.7%)

$\lambda$ 가 커기고 n이 커지면 분포 곡선은 오른쪽으로 이동한다. 즉 분산이 커지고, 정규분포에 가까워 진다.

12. 여러 데이터를 동시에 취급하기 – 카이제곱 분포

$x^{2}$ 분포(카이제곱 분포) 는 정규분포를 따르는 여러 데이터를 한꺼번에 취급할 수 있어 분산분석에 이용할 수 있다.
자유도 1의 $x^{2}$ 분포는 하나의 표준정규분포로 부터 하나의 데이터를 추출하여 제곱한 분포이이고 자유도 3의 $x^{2}$ 분포는 3개의 표준정규분포로부터 하나씩 데이터를 추출해 제곱해서 더한 분포이다.

자유도 m의 $ x^{2}$분포는 $x^{2}(m)$이라고 표기한다. 표준정규분포에서 추출된 m개의 변수 ($z_{1}, z_{2}, … ,z_{m}$) 의 $x^{2}통계량은 아래와 같다.

$X^{2}_{(m)} =  Z^{2}_{1} + Z^{2}_{2} + . . . . + Z^{2}_{m}$

정규 분포에서 추출된 m개의 변수($x_{1}, x_{2} …, x_{m}$) 를 계산하는 경우는 변수 $x_{i} 의 평균을 \mu_{i} , 표준편차를\sigma_{i}$ 라 하면

$X_{(m)}^{2} = (\dfrac{x_{1} – \mu_{1}}{\sigma_{1}})^{2} + (\dfrac{x_{2} – \mu_{2}}{\sigma_{2}})^{2} + … + (\dfrac{x_{m} – \mu_{m}}{\sigma_{m}})^{2}$

가 된다.
그리고 원래 정규분포의 평균과 분산이 같을 때는

$X_{(m)}^{2} = (\dfrac{x_{1} – \mu}{\sigma})^{2} + (\dfrac{x_{2} – \mu}{\sigma})^{2} + … + (\dfrac{x_{m} – \mu}{\sigma})^{2} = \dfrac{1}{\sigma^{2}}\sum_{i=1}^{m}(x_{i}-\mu)^{2}$

가 된다.

$X_{2}$ 분포에는

기대값 = 자유도 그리고 분산 = 2 * 자유도

와 같은 관계가 있다. 자유도가 늘어나면 $x^{2}$ 분포의 그래프가 오른쪽으로 이동해 평평해진다.

13. $x^{2}$ 값의 비 – F 분포

2개의 $x^{2}$ 값의 비로 정의되는데, 그 분포가 F 분포이다. 각 표본의 $x^{2}$ 값을 사용하기 때문에 자유도가 2개 있다.

$\dfrac{m_{2}}{m_{2} – 2}$, 평균

$\dfrac{2m_{2}^{2}(m_{1}+m_{2}-2)}{m_{1}(m_{2}-2)^{2}(m_{2}-4)}$, 분산

두 변수 (x,y)에 대한 식

$\dfrac{\dfrac{1}{\sigma^{2}_{x}}\sum(x_{i}-\mu_{x})^2}{\dfrac{1}{\sigma^{2}_{y}}\sum(x_{i}-\mu_{y})^2}$

을 생각 해보면 이 분자와 분모가 각각 $x^{2}$ 분포를 따른다. 따라서 이 식은 $x^{2}$값의 비가 비가 되는 F분포를 따른다는 것이다. 만약에 x와 y가 동일 모집단에서 추출한 것이라고 생각하면,

$\mu_{x} = \mu_{y} =\mu$, $\sigma^{2}_{x} = \sigma^{2}_{y} = \sigma^{2}$

가 되므로

$\dfrac{\dfrac{1}{\sigma^{2}_{x}}\sum(x_{i}-\mu_{x})^2}{\dfrac{1}{\sigma^{2}_{y}}\sum(x_{i}-\mu_{y})^2}$ = $\dfrac{\dfrac{\sum(x_{i} – \mu)^{2}}{n}}{\dfrac{\sum(y_{i} – \mu)^{2}}{n}}$

으로 변형할 수 있다.
마지막 항은 x와 y의 분산비이다.
따라서 변수(x,y)의 분산비가 따르는 것은 F 분포임을 알 수 있다.

14. 정규분포 대신에 사용한다 – t분포

t-분포 정리

모분산을 알 수 없고 표본 크기가 작을 때, 정규분포(z분포)를 이용해 추정 또는 검정을 하면 결과가 틀릴 수 있다. 이럴경우 스튜던트화 변량이 따르는 t분포를 사용한다.
두 확률변수 X~N(0,1), Q~$X^{2}$(k) 가 주어졌을 때 확률변수

$T = \dfrac{x}{\sqrt{\dfrac{Q}{k}}}$

의 분포

평균 : E(T) = 0
정의역 : ($-\infty, \infty$)
분산 : Var(T) = $\dfrac{k}{k-1}$


자유도에 따라 분포의 형태가 달라진다. 자유도 m의 t분포는 $t_{(m)}$이라고 표기한다. 표본의 크기가 클수로 컴도가 작아죠 $m \ge 30$이면 거의 정규분포와 일치된다. 표본을 반복 추출해 표본평군을 계산한 경우, 그 표본평균은 평균 $\mu$, 표준오차 $\dfrac{\sigma}{\qurt{n}}$ 의 정규분포를 따른다. 표본평균의 표준화변량은

$Z_{\overline{x}} = \dfrac{\overline{x} – \mu}{\dfrac{\sigma}{\sqrt{n}}}$

그러나 모 표준편차 $\sigma$ 를 알 수 없을 때는 t분포를 따르는 스튜던트 변량을 사용한다.

$t_{\overline{x}} = \dfrac{\overline{x} – \mu}{\dfrac{s}{\sqrt{n-1}}}$


0개의 댓글

답글 남기기

이메일 주소를 발행하지 않을 것입니다.