통계수학 – 확률변수

1. 확률변수란

여러가지 실험의 모든 가능한 결과의 집합인 표본공간에서 정의된 실수 값 함수를 확률변수라고 한다.

ex_1_1)

동전을 두 번 던지는 실험에서 앞면이 나오는 횟수

표본공간 S ={{T,T},{T,H},{H,T},{H,H}} 이고 앞면이 나오는 횟수를 X라고 하면 확률 변수 X의 값과 그 확률을 아래의 표와 같이 나타낼 수 있다.

결과 (T,T) (T,H) (H,T) (H,H)
X의 값 0 1 1 2
확률 1/4 1/4 1/4 1/4
ex_1_2)

동전을 두번 던지는 실험에서 앞면이 나오는 횟수의 확률 분포

동전을 두번 던질 때 앞면이 나오는 횟수 X는 0, 1, 2의 값을 갖고, 그 확률은
P(X=0) = {T,T} = 1/4
P(X=1) = {H,T},{T,H} = 1/2
P(X=2) = {H,H} = 1/4 로 주어지고 이를 표로 나타낸 것을 확률변수 X의 확률분포표라 한다.

X의 값 0 1 2
확률 1/4 1/2 1/4

 

2. 이산형 확률 변수와 확률밀도 함수

ex_2_1)

앞면이 나올 때 까지 동전을 던지는 실험에서 표본공간은
$S={H,TH,TTH,TTTH,\cdot\cdot\cdot}$ 이고, 던지게 될 횟수를 X라고 하면 확률변수 X가 가질 수 있는 값들은 자연수 전체이고 그 확률은 다음과 같이 주어진다.
P(X=1)=P(H)=1/2, P(X=2)=P(TH)=1/4, P(X=3)=P(TTH)=1/8, ….
이를 다음과 같은 대응 관계로 나타낼 수 있다.
$P(X=x) = (1/2)^{x}, x=1,2,\cdot\cdot\cdot$

일반적으로, 확률변수가 가질 수 있는 값들의 집합을 ${x_{1},x_{2},x_{3}, \cdot\cdot\cdot}$ 과 같이 나타낼 수 있을 때 이산형이라고 하고
각각의 값에 그 값을 가질 확률을 대응시키는 함수
$f(x_{k})=P(X=x_{k})(k=1,2,3,\cdot\cdot\cdot)$ 를 X의 확률질량함수 또는 확률밀도함수 라고 하면 pdf로 나타내기도 한다.

이산형 확률변수의 확률밀도 함수 성질

(a) $f(x) \ge 0 \quad \forall x: -\infty < x < +\infty$
(b) $\sum_{x}f(x) = \sum_{k=1}^{\infty}f(x_{k}) = 1$
(c) $\sum_{x:a\le x\le b}f(x) = P(a\le X\le b)$

3. 연속형 확률변수와 확률밀도함수

ex_3_1)

어느 병원에서 가까운 지하철역까지 15분 간격으로 왕복 셔틀버스가 운행되고 있다. 아무런 정보가 없는 사람이 지하철을 타고 와서 셔틀버스로 병원에 올때 버스를 기다릴 시간을 X분이라고 하면 X는 실수 구간의 값들을 가 질 수 있고 그 확률은 다음과 같이 길이의 비로 주어진다.
$P(0\le X \le 15) =1$
$P(0\le X \le 5) = 5/15$
$P(a \le X \le b) = (b-a)/15 (0 \le a < b \le 15)$

확률 변수가 실수 구간의 값들을 가질 수 있고 그에 관한 확률이 적분으로 주어질 때, 그 확률변수를 연속형이라 하고, 확률을 정해주는 함수
$\int_{a}^{b}f(x)dx = P(a\le X \le b) \quad (-\infty < a < b < +\infty)$ 인 함수 f를 X의 확률밀도함수라고 한다.

연속형 확률변수의 확률밀도 함수 성질

(a) $f(x) \ge 0 \quad \forall x: -\infty < x < +\infty$
(b) $\int_{-\infty}^{+\infty}f(x)dx = 1$
(c) $\int_{a}^{b}f(x)dx = P(a\le X \le b) \quad (-\infty < a < b < +\infty)$

이산형이나 연속형 모두의 경우에 확률밀도함수는 확률변수에 관한 확률을 결정지어주는 역활을 하고 있다.
즉 확률 변수 X에 관한 확률이 실직선 위에 어떻게 분포되는가를 나타내고 있다.
$P(a \le X \le b)\quad (-\infty < a < b < +\infty)$ 를 X의 확률분포 또는 분포라고 하며 X ~ f (pdf) 기호로 표시되며, 기호와 같이 X의 분포가 확률밀도함수(pdf) f에 의해 정해지는 것을 표기한다.

ex_3_2)

다음 함수가 확률 밀도함수가 되기 위한 상수 c값을 구하고, 이 함수가 확률변수 X의 확률밀도함수일 때 확률 $P(1/2 \le X \le 3/4)$ 를 구하여라
$f(x) = \begin{cases}
cx(1-x)\quad0\le x \le 1\\
0\quad\quad\quad\quad\  \  x<0,x>1
\end{cases}$

<풀이>

전체 확률이 1이어야 하므로
$\int_{-\infty}^{+\infty}f(x)dx = \int_{0}^{1}cx(1-x)dx = 1$
$\therefore c[x^{2}/2 – x^{3}/3]_{0}^{1} = c/6 =1$
따라서 c=6이고 구하는 확률은
$P(1/2 \le X \le 3/4) = \int_{1/2}^{3/4}6x(1-x)dx = 11/32$

연속형 확률변수의 경우에는 한 점에서의 적분 값은 0 이므로
$P(X=a) = \int_{a}^{a}f(x)dx = 0$
이고 확률밀도함수의 값 f(a)는 P(X=a)가 아니며, 다음의 근사식만 성립하는 것이다.
$\triangle x \fallingdotseq 0$ 이면 $P(a \le X \le a + \triangle x) \fallingdotseq f(a)\triangle x$

4. 확률분포 평균

1반 2반
점수 80 85 90 합계 점수 80 85 90 합계돗
도수 3 6 1 10 도수 2 5 3 10
상대도수 3/10 6/10 1/10 1 상대도수 2/10 5/10 3/10 1

두 반의 성적 분포를 비교하면 2반의 성적 분포가 1반에 비해 큰 쪽에 위치하고 있다.

평균 : 분포의 위치를 나타내는 값
1반 평균 : (80 * 3 + 85 * 6 + 90 * 1)/10 = 84.0
2반 평균 : (80 * 2 + 85 * 5 + 90 * 3)/10 = 85.5 로 2반의 성적 분포가 근 쪽에 위치하고 있는 것을 나타내고 있다.

확률분포에 대한 평균
$80 * (\frac{3}{10}) + 85*(\frac{6}{10}) + 90*(\frac{1}{10}) = 84.0$
$80 * (\frac{2}{10}) + 85*(\frac{5}{10}) + 90*(\frac{3}{10}) = 85.5$

확률분포의 평균 :

확률변수 X의 확률밀도함수가 f 일 때, X의 확률분포의 평균(mean) 은
$\mu = \begin{cases}
\sum_{x}xf(x) \quad\quad\ \  (X가 이산형)\\
\int_{-\infty}^{+\infty}xf(x)dx \quad(X가 연속형)\\
\end{cases}$

ex_4_1)

확률변수 X의 확률밀도함수가 다음과 같을 때 X의 확률분포의 평균 $\mu$ 를 구하여라
$f(x) = \begin{cases}
(-x^{2} + 2x)/2,\quad\quad\quad 0 \ge x \ge 1 \\
(-x^{2}+2x+3)/8, \quad\  1 \ge x \ge 3 \\
0,\quad\quad\quad\quad\quad\quad\quad\quad\  x<0, x>3
\end{cases}$

<풀이>

$\mu = \int_{-\infty}^{+\infty}xf(x)dx = \int_{0}^{1}x(-x^{2}+2x)/2dx + \int_{1}^{3}x(-x^{2}+2x+3)/8dx$
$\therefore \mu = [-x^{4}/8 + x^{3}/3]_{0}^{1} + [-x_{4}/32 + x_{3}/12 + 3x_{2}/16]_{1}^{3} = 11/8$

확률변수 X의 확률분포의 평균을 X의 기댓값이라고 부르며, 일반적으로 X의 함수 g(X)의 기댓값을 다음과 같이 정의한다.

 

 

3 Replies to “통계수학 – 확률변수”

답글 남기기

이메일 주소를 발행하지 않을 것입니다.