자료의 연관 (Cov, Corr) – 기초통계학

자료의 연관

2개의 변수 사이의 자료의 연관 성을 파악한다.

1. 범주형 자료의 연관 관계

교육수준과 결혼생활의 분할표

위와 같이 교육수준과 결혼생활의 분활표가 있다.

위 표를 기반으로 교육수준에 따른 결혼생활의 조건부 분포로 정의하면 아래와 같다.

반대로 결혼생활 만족도에 따른 교육수준의 조건부 분포로 변한을 하면 아래와 같다.

조건부 분포에서 각 고정된 변수의 범주별로 동일하면 두 변수는 독립이다. 위 표에서 고정된 변수는 결혼생활의 만족도로 “매우 원만함”, “원만함”, “원만하지 않음” 이 33% 값으로 동일하면 두 변수는 독립이다. 위 표와 같이 차이가 나면 연관성이 있을 가능성이 있다.

위 그래프는 교육수준에 대한 결혼생활 만족도를 나타내는 막대 그래프이고, 두 변수가 독립이라면, 동일한 패턴의 그래프로 나타난다.

2, 연속형 자료의 연관 관계

두 개의 연속형 확률변수 X와 Y에 대한 n개의 관측값 $(x_{1},y_{1}),(x_{2},y_{2})…(x_{n},y_{n})$ 으로 주어 졌다면 두 변수간 연관 관계를 확인 할 수 있다.

두 변수의 연관 관계를 확인 할 수 있는 그래프로는 산점도가 있다.

아래의 그래프는 33개국 인터넷 사용(X) 와 페이스 북 사용(Y) 의 산점도 그래프이다.

“인터넷 사용률이 적으면 페이스북 사용량도 적을 것이다”라는 가설을 전제하에 인터넷 사용과 페이스북의 사용이 상관관계가 있을까? 라는 계산을 할 수 있다.

그래프를 확인하면 인터넷 사용률이 크면 페이스북 사용량도 크다 라는 것을 그래프를 토대로 확인할 수 있다.

여기서 수치적으로 확인하기 위해 공분산을 사용할 수 있다.

– 공분산의 계산식

$S_{XY} = \dfrac{\sum_{i=1^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1}$

$(x_{i}-\bar{x})$ 은 영역 1과 4에서는 양(+)의 값을 가지고 영역 2와 3에서는 음(-)의 값을 가진다.

$(y_{i}-\bar{y})$ 은 영역 1과 2에서는 양(+)의 값을 가지고 영역 3과 4에서는 음(-)의 값을 가진다.

$(x_{i}-\bar{x})(y_{i}-\bar{y})$은 영역 1과 3에 존재하는 관측값들의 숫자가 영역 2와 4에 존재하는 관측값들의 숫자보다 많으면 공분산은 양(+)의 값을 가지고 반대의 경우 음의 값을 가진다.

– 상관계수 계산식

각 변수를 표준화 한 후 계산한 공분산

$r_{XY} = \dfrac{\sum_{i=1}^{n}(\dfrac{x_{i}-\bar{x}}{S_{x}})(\dfrac{y_{i}-\bar{y}}{S_{y}})}{n-1}= \dfrac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$

여기서

$\bar{x} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}, s_{x} = \sqrt{\dfrac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}}$

$\bar{y} = \dfrac{1}{n}\sum_{i=1}^{n}y_{i}, s_{y} = \sqrt{\dfrac{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}{n-1}}$

으로 이 상관계수는 피어슨 상관계수(Pearson correlation coefficient)라 부른다.

– 상관계수 r의 성질

상관계수 값은 -1에서 1의 사이의 값을 갖는다. r의 값이 의미하는 것은 X와 Y간의 선형관계를 나타내는 측도이다. 비 선형 연관관계를 설명하는데는 부족하다. 강한 비선형 연관관계를 가지거나 r = 0 일 때의 산점도를 확인하면 아래와 같다.

r의 값이 양이면 양의 상관관계가 있고, 음이면 음의 상관관계를 가진다. r이 값에 $\pm1$에 가까워질수록 선형연관성의 강도는 높아지고 산점도의 점들이 직선 주위에 밀집되어 나타난다. r 값이 0에 가까워질수록 선형 연관성의 관계는 낮아진다. X가 aX+b로 바뀌고 Y가 cY+d로 바뀌어도 a와 c의 부호가 같으몀 r의 값에는 변함이 없다.

– 산점도의 모양에 따른 상관계수

3. 두 확률변수의 결합분포

두개 이상의 확률변수들이 서로 확률적 관계를 가지면서 관측될 수 있다. 아래의 예제를 보면 Y, Z의 확률변수는 동일한 확률 분포를 가진다.

예제)

서로 다른 동전 A,B,C를 던지는 실험에서 확률변수

Y와 Z 각각의 확률분포표

Y의 확률분포를 보면 동전 A,B를 던졌는데 두개 다 표면이다. 두개 다 표면의 확률은 $\dfrac{1}{4}$ 이고 Y가 1이 될 확률은 $\dfrac{1}{4}$ 이다.

Z의 확률분포를 보면 동전 B,C를 던졌는데 두개 다 표면이다. 두개 다 표면의 확률은 $\dfrac{1}{4}$ 이고 Z가 1이 될 확률은 $\dfrac{1}{4}$ 이다.

여기서 두개의 연속형 확률변수 Y와 Z의 분포는 같다고 하더라도 2개의 확률변수들을 동시에 고려할 때 X와 Y의 확률적 관계가 X와 Z의 확률적 관계와 반드시 일치하지는 않는다.

예제)

X 가0 이면  Y 는 무조건 0 이다.

X가0 이면(동전 A가 표변이 아닐 때) Z가 0일 확률은 $\dfrac{3}{4}$, Z가 1일(B,C가 모두 표면일 때) 확률은 \dfrac{1}{4}

즉 X의 기준으로 봤을 때 Y와 Z의 확률 분포는 완전히 달라진다.

– 두 확률변수의 결합분포(joint probability distribution)

두 개의 확률변수 X와 Y에 대하여, 수직선의 두 개의 부분집합 A,B에 대하여 확률 $P(X\inA, Y\inB)$ 를 대응시켜주는 관계

– X와 Y의 결합확률질량함수(joint probalility mass function)

두 이산확률변수 X와 Y가 각각 $x_{1},x_{2},…$와 $y_{1},y_{2},….$의 값을 취할 때, $(x_{i},y_{j}), i,j=1,2……$ 각각에 대하여 $P(X=x_{i},Y=y_{i})$를 대응시켜주는 관계

$f(x,y) = \begin{cases}P(X=x_{i},Y=y{i}) & \mbox{if} X=x_{i}, Y=y{i} \\0 & \mbox{otherwise} \end{cases}$

– 결합확률질량함수의 성질 : 이상확률변수 X와 Y의 결합확률질량함수

$f(x_{i},y_{j}) = P(X=x_{i}, Y=y_{j})$에 대하여

$f(x_{i},y_{j}) \ge 0, \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}f(x_{i},y_{j}) = 1$

$P(a <X \le b, c<Y\le d) = \sum_{a<x_{i}\le b}\sum_{c<y_{i}\le d}f(x_{i},y_{j})$

– X와 Y의 결합확률분포는 이들의 결합확률질량함수에 의해 결정됨, 이를 결합확률분포표로 나타내면 편리하다.

예제)

X 와 Y의 결합확률분포료

X가 0이면서 Y가 0일 확률만 보면 X가 0일 확률은 $\dfrac{1}{2}$이다.  X가 0이면 Y는 자동적으로 0이다.

열의 합을 보면 X의 확률질량함수 P(X) 가 되고 행의 합을 보면 Y의 확률질량함수 P(Y) 가 된다.

X와 Z의 결합확률분포표

X=1,  Z=1 이 될 확률은 X가 앞면이 나올 확률은 $\dfrac{1}{2}$ 이고 동전B와 C가 앞면 $\dfrac{1}{2} \times \dfrac{1}{2}$ 이 되어야 한다.

– X의 주변확률질량함수(marginal probability mass function) : $\sum_{j=1}^{infty}(x_{i),y_{j})$

– Y의 주변확률질량함수(marginal probability mass function) : $\sum_{i=1}^{infty}(x_{i),y_{j})$

의 식으로 주변확률질량함수를 구할 수 있고, 위 X,Y의 결합확률 분포표에서 Z의 주변확률 질량함수 $\dfrac{3}{4}, \dfrac{1}{4}$이고 X의 주변확률 질량함수 $\dfrac{1}{2} \dfrac{1}{2}$ 이다.

예제:

하나의 주사위를 던져서 나온 눈에 따라 상금이 걸린 게임

X :

1 또는 2가 나오면 100원

3 또는 4가 나오면 200원

5 또는 6이 나오면 300원

Y:

짝수가 나오면 100원

홀수가 나오면 (눈의 수 $\times$ 100) 원

해석 : Y가 100원이 될 값은 주사위값이 1,2,4,6 이 나오면 100원이다. Y 가 100일 때 행의 값이 $\dfrac{4}{6}$ 이다.

X가 100원이 되려면 주사위가 1,2 가 되어야 하고 Y가 100이 되려면 주사위는 1,2,4,6이 되어야 하는데 두개 같이 100원이 되어야 하고 주사위는 한번 던졌을 기준이라 1,2 가 되어야 한다.

X가 200원이 되려면 주사위 3,4 가 되어야 하고 Y가 100이 되려면 수사위는 1,2,4,6 이 되어야 한다. 주사위가 4가 나와야 동시에 X는 200원 Y는 100이 된다.

– 두 확률변수의 함수도 확률변수이다.

예제)

A와 B의 수입의 합 Z의 분포

– 두 이산 확률변수의 함수의 기대값

두 확률변수 X,Y의임의의 함수 $U_{1},U_{2}$ 에 대하여

$E[U(x,y)] = \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}U(x_{1},y_{1})f(x_{y},y_{1})$

$E[c_{1}U_{1}(x,y)+c_{2}U_{2}(x,y)] = c_{1}E[U_{1}(x,y)] + c_{2}E[U_{2}(x,y)]$

공분산과 상관계수

기대값이 각각 $\mu_{X}, \mu_{Y}$ 인 두 확률변수 X,Y에 대하여

공분산은 $Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})]$

상관계수 $Corr(X,Y) = \dfrac{Cov(X,Y)}{sd(X)sd(Y)}$

C0v(X,Y) = E[XY] – E[X]E[Y} 로 계산 할 수 있다.

(증명)

$Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})]$

$= E[XY – X\mu_{Y} – \mu_{x}Y + \mu_{X}\mu_{Y}]$

$= E[XY]-E[X]\mu_{Y} – \mu_{X}E[Y] + \mu_{X}\mu_{Y}$

$= E[XY]-E[X]E[Y] – E[X]E[Y] + E[X]E[Y]$

$= E[XY] – E[X]E[Y]$

– 공분산과 상관계수의 성질

$Cov(aX+b,cY+d) = acCov(X,Y)$

$Corr(aX+b,cY+d) = \begin{cases}Corr(X,Y) &\mbox{if} ac>0 \\ -Corr(X,Y) &\mbox{if} ac<0 \end{cases}$

(증명)

– 두 확률변수의 합의 분산

$Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$

$Var(X-Y) = Var(X) + Var(Y) – 2Cov(X,Y)$

(증명)

두 확률변수의 독립성

– 두 확률변수 X와 Y의 결합분포에서 모든(x,y) 에 대하여 $f(x,y) = f_{1}(x)f_{2}(y)$ 가 성립할 때, X와 Y는 서로 독립이라 한다. X와 Y가 서로 독립이 아니면 서로 종속이라고 한다.

예제)

하나의 동전을 세번 던질 때 X=처음 두번에서 나오는 표면의 개수, Y=세 번째에서 나오는 표면의 개수

모든 (x,y)에 대하여 $f(x,y)=f_{1}(x)f_{2}(y)$ 가 성립한다. 따라서 X와 Y는 서로 독립이다.

– 두 확률변수가 서로 독립인 경우

$E(XY) = E(X)E(Y)$

$Cov(X,Y)=Corr(X,Y) = 0$

$Var(X \pm Y) = Var(X) + Var(Y)$

답글 남기기