자료의 연관 (Cov, Corr) – 기초통계학

자료의 연관

2개의 변수 사이의 자료의 연관 성을 파악한다.

1. 범주형 자료의 연관 관계

교육수준과 결혼생활의 분할표

위와 같이 교육수준과 결혼생활의 분활표가 있다.

위 표를 기반으로 교육수준에 따른 결혼생활의 조건부 분포로 정의하면 아래와 같다.

반대로 결혼생활 만족도에 따른 교육수준의 조건부 분포로 변한을 하면 아래와 같다.

조건부 분포에서 각 고정된 변수의 범주별로 동일하면 두 변수는 독립이다. 위 표에서 고정된 변수는 결혼생활의 만족도로 “매우 원만함”, “원만함”, “원만하지 않음” 이 33% 값으로 동일하면 두 변수는 독립이다. 위 표와 같이 차이가 나면 연관성이 있을 가능성이 있다.

위 그래프는 교육수준에 대한 결혼생활 만족도를 나타내는 막대 그래프이고, 두 변수가 독립이라면, 동일한 패턴의 그래프로 나타난다.

2, 연속형 자료의 연관 관계

두 개의 연속형 확률변수 X와 Y에 대한 n개의 관측값 $(x_{1},y_{1}),(x_{2},y_{2})…(x_{n},y_{n})$ 으로 주어 졌다면 두 변수간 연관 관계를 확인 할 수 있다.

두 변수의 연관 관계를 확인 할 수 있는 그래프로는 산점도가 있다.

아래의 그래프는 33개국 인터넷 사용(X) 와 페이스 북 사용(Y) 의 산점도 그래프이다.

“인터넷 사용률이 적으면 페이스북 사용량도 적을 것이다”라는 가설을 전제하에 인터넷 사용과 페이스북의 사용이 상관관계가 있을까? 라는 계산을 할 수 있다.

그래프를 확인하면 인터넷 사용률이 크면 페이스북 사용량도 크다 라는 것을 그래프를 토대로 확인할 수 있다.

여기서 수치적으로 확인하기 위해 공분산을 사용할 수 있다.

– 공분산의 계산식

$S_{XY} = \dfrac{\sum_{i=1^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1}$

$(x_{i}-\bar{x})$ 은 영역 1과 4에서는 양(+)의 값을 가지고 영역 2와 3에서는 음(-)의 값을 가진다.

$(y_{i}-\bar{y})$ 은 영역 1과 2에서는 양(+)의 값을 가지고 영역 3과 4에서는 음(-)의 값을 가진다.

$(x_{i}-\bar{x})(y_{i}-\bar{y})$은 영역 1과 3에 존재하는 관측값들의 숫자가 영역 2와 4에 존재하는 관측값들의 숫자보다 많으면 공분산은 양(+)의 값을 가지고 반대의 경우 음의 값을 가진다.

– 상관계수 계산식

각 변수를 표준화 한 후 계산한 공분산

$r_{XY} = \dfrac{\sum_{i=1}^{n}(\dfrac{x_{i}-\bar{x}}{S_{x}})(\dfrac{y_{i}-\bar{y}}{S_{y}})}{n-1}= \dfrac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$

여기서

$\bar{x} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}, s_{x} = \sqrt{\dfrac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}}$

$\bar{y} = \dfrac{1}{n}\sum_{i=1}^{n}y_{i}, s_{y} = \sqrt{\dfrac{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}{n-1}}$

으로 이 상관계수는 피어슨 상관계수(Pearson correlation coefficient)라 부른다.

– 상관계수 r의 성질

상관계수 값은 -1에서 1의 사이의 값을 갖는다. r의 값이 의미하는 것은 X와 Y간의 선형관계를 나타내는 측도이다. 비 선형 연관관계를 설명하는데는 부족하다. 강한 비선형 연관관계를 가지거나 r = 0 일 때의 산점도를 확인하면 아래와 같다.

r의 값이 양이면 양의 상관관계가 있고, 음이면 음의 상관관계를 가진다. r이 값에 $\pm1$에 가까워질수록 선형연관성의 강도는 높아지고 산점도의 점들이 직선 주위에 밀집되어 나타난다. r 값이 0에 가까워질수록 선형 연관성의 관계는 낮아진다. X가 aX+b로 바뀌고 Y가 cY+d로 바뀌어도 a와 c의 부호가 같으몀 r의 값에는 변함이 없다.

– 산점도의 모양에 따른 상관계수

3. 두 확률변수의 결합분포

두개 이상의 확률변수들이 서로 확률적 관계를 가지면서 관측될 수 있다. 아래의 예제를 보면 Y, Z의 확률변수는 동일한 확률 분포를 가진다.

예제)

서로 다른 동전 A,B,C를 던지는 실험에서 확률변수

Y와 Z 각각의 확률분포표

Y의 확률분포를 보면 동전 A,B를 던졌는데 두개 다 표면이다. 두개 다 표면의 확률은 $\dfrac{1}{4}$ 이고 Y가 1이 될 확률은 $\dfrac{1}{4}$ 이다.

Z의 확률분포를 보면 동전 B,C를 던졌는데 두개 다 표면이다. 두개 다 표면의 확률은 $\dfrac{1}{4}$ 이고 Z가 1이 될 확률은 $\dfrac{1}{4}$ 이다.

여기서 두개의 연속형 확률변수 Y와 Z의 분포는 같다고 하더라도 2개의 확률변수들을 동시에 고려할 때 X와 Y의 확률적 관계가 X와 Z의 확률적 관계와 반드시 일치하지는 않는다.

예제)

X 가0 이면  Y 는 무조건 0 이다.

X가0 이면(동전 A가 표변이 아닐 때) Z가 0일 확률은 $\dfrac{3}{4}$, Z가 1일(B,C가 모두 표면일 때) 확률은 \dfrac{1}{4}

즉 X의 기준으로 봤을 때 Y와 Z의 확률 분포는 완전히 달라진다.

– 두 확률변수의 결합분포(joint probability distribution)

두 개의 확률변수 X와 Y에 대하여, 수직선의 두 개의 부분집합 A,B에 대하여 확률 $P(X\inA, Y\inB)$ 를 대응시켜주는 관계

– X와 Y의 결합확률질량함수(joint probalility mass function)

두 이산확률변수 X와 Y가 각각 $x_{1},x_{2},…$와 $y_{1},y_{2},….$의 값을 취할 때, $(x_{i},y_{j}), i,j=1,2……$ 각각에 대하여 $P(X=x_{i},Y=y_{i})$를 대응시켜주는 관계

$f(x,y) = \begin{cases}P(X=x_{i},Y=y{i}) & \mbox{if} X=x_{i}, Y=y{i} \\0 & \mbox{otherwise} \end{cases}$

– 결합확률질량함수의 성질 : 이상확률변수 X와 Y의 결합확률질량함수

$f(x_{i},y_{j}) = P(X=x_{i}, Y=y_{j})$에 대하여

$f(x_{i},y_{j}) \ge 0, \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}f(x_{i},y_{j}) = 1$

$P(a <X \le b, c<Y\le d) = \sum_{a<x_{i}\le b}\sum_{c<y_{i}\le d}f(x_{i},y_{j})$

– X와 Y의 결합확률분포는 이들의 결합확률질량함수에 의해 결정됨, 이를 결합확률분포표로 나타내면 편리하다.

예제)

X 와 Y의 결합확률분포료

X가 0이면서 Y가 0일 확률만 보면 X가 0일 확률은 $\dfrac{1}{2}$이다.  X가 0이면 Y는 자동적으로 0이다.

열의 합을 보면 X의 확률질량함수 P(X) 가 되고 행의 합을 보면 Y의 확률질량함수 P(Y) 가 된다.

X와 Z의 결합확률분포표

X=1,  Z=1 이 될 확률은 X가 앞면이 나올 확률은 $\dfrac{1}{2}$ 이고 동전B와 C가 앞면 $\dfrac{1}{2} \times \dfrac{1}{2}$ 이 되어야 한다.

– X의 주변확률질량함수(marginal probability mass function) : $\sum_{j=1}^{infty}(x_{i),y_{j})$

– Y의 주변확률질량함수(marginal probability mass function) : $\sum_{i=1}^{infty}(x_{i),y_{j})$

의 식으로 주변확률질량함수를 구할 수 있고, 위 X,Y의 결합확률 분포표에서 Z의 주변확률 질량함수 $\dfrac{3}{4}, \dfrac{1}{4}$이고 X의 주변확률 질량함수 $\dfrac{1}{2} \dfrac{1}{2}$ 이다.

예제:

하나의 주사위를 던져서 나온 눈에 따라 상금이 걸린 게임

X :

1 또는 2가 나오면 100원

3 또는 4가 나오면 200원

5 또는 6이 나오면 300원

Y:

짝수가 나오면 100원

홀수가 나오면 (눈의 수 $\times$ 100) 원

해석 : Y가 100원이 될 값은 주사위값이 1,2,4,6 이 나오면 100원이다. Y 가 100일 때 행의 값이 $\dfrac{4}{6}$ 이다.

X가 100원이 되려면 주사위가 1,2 가 되어야 하고 Y가 100이 되려면 주사위는 1,2,4,6이 되어야 하는데 두개 같이 100원이 되어야 하고 주사위는 한번 던졌을 기준이라 1,2 가 되어야 한다.

X가 200원이 되려면 주사위 3,4 가 되어야 하고 Y가 100이 되려면 수사위는 1,2,4,6 이 되어야 한다. 주사위가 4가 나와야 동시에 X는 200원 Y는 100이 된다.

– 두 확률변수의 함수도 확률변수이다.

예제)

A와 B의 수입의 합 Z의 분포

– 두 이산 확률변수의 함수의 기대값

두 확률변수 X,Y의임의의 함수 $U_{1},U_{2}$ 에 대하여

$E[U(x,y)] = \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}U(x_{1},y_{1})f(x_{y},y_{1})$

$E[c_{1}U_{1}(x,y)+c_{2}U_{2}(x,y)] = c_{1}E[U_{1}(x,y)] + c_{2}E[U_{2}(x,y)]$

공분산과 상관계수

기대값이 각각 $\mu_{X}, \mu_{Y}$ 인 두 확률변수 X,Y에 대하여

공분산은 $Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})]$

상관계수 $Corr(X,Y) = \dfrac{Cov(X,Y)}{sd(X)sd(Y)}$

C0v(X,Y) = E[XY] – E[X]E[Y} 로 계산 할 수 있다.

(증명)

$Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})]$

$= E[XY – X\mu_{Y} – \mu_{x}Y + \mu_{X}\mu_{Y}]$

$= E[XY]-E[X]\mu_{Y} – \mu_{X}E[Y] + \mu_{X}\mu_{Y}$

$= E[XY]-E[X]E[Y] – E[X]E[Y] + E[X]E[Y]$

$= E[XY] – E[X]E[Y]$

– 공분산과 상관계수의 성질

$Cov(aX+b,cY+d) = acCov(X,Y)$

$Corr(aX+b,cY+d) = \begin{cases}Corr(X,Y) &\mbox{if} ac>0 \\ -Corr(X,Y) &\mbox{if} ac<0 \end{cases}$

(증명)

– 두 확률변수의 합의 분산

$Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$

$Var(X-Y) = Var(X) + Var(Y) – 2Cov(X,Y)$

(증명)

두 확률변수의 독립성

– 두 확률변수 X와 Y의 결합분포에서 모든(x,y) 에 대하여 $f(x,y) = f_{1}(x)f_{2}(y)$ 가 성립할 때, X와 Y는 서로 독립이라 한다. X와 Y가 서로 독립이 아니면 서로 종속이라고 한다.

예제)

하나의 동전을 세번 던질 때 X=처음 두번에서 나오는 표면의 개수, Y=세 번째에서 나오는 표면의 개수

모든 (x,y)에 대하여 $f(x,y)=f_{1}(x)f_{2}(y)$ 가 성립한다. 따라서 X와 Y는 서로 독립이다.

– 두 확률변수가 서로 독립인 경우

$E(XY) = E(X)E(Y)$

$Cov(X,Y)=Corr(X,Y) = 0$

$Var(X \pm Y) = Var(X) + Var(Y)$

“자료의 연관 (Cov, Corr) – 기초통계학”의 10개의 댓글

  1. Does your site have a contact page? I’m having problems
    locating it but, I’d like to send you an e-mail. I’ve got some recommendations for your blog you might be interested in hearing.

    Either way, great blog and I look forward to seeing it develop over time.

  2. After going over a number of the blog articles on your website, I really
    appreciate your way of blogging. I added it to my bookmark webpage
    list and will be checking back in the near future.
    Please visit my website as well and let me know
    what you think.

답글 남기기