자료의 연관 (Cov, Corr) – 기초통계학
자료의 연관
2개의 변수 사이의 자료의 연관 성을 파악한다.
1. 범주형 자료의 연관 관계
교육수준과 결혼생활의 분할표
위와 같이 교육수준과 결혼생활의 분활표가 있다.
위 표를 기반으로 교육수준에 따른 결혼생활의 조건부 분포로 정의하면 아래와 같다.
반대로 결혼생활 만족도에 따른 교육수준의 조건부 분포로 변한을 하면 아래와 같다.
조건부 분포에서 각 고정된 변수의 범주별로 동일하면 두 변수는 독립이다. 위 표에서 고정된 변수는 결혼생활의 만족도로 “매우 원만함”, “원만함”, “원만하지 않음” 이 33% 값으로 동일하면 두 변수는 독립이다. 위 표와 같이 차이가 나면 연관성이 있을 가능성이 있다.
위 그래프는 교육수준에 대한 결혼생활 만족도를 나타내는 막대 그래프이고, 두 변수가 독립이라면, 동일한 패턴의 그래프로 나타난다.
2, 연속형 자료의 연관 관계
두 개의 연속형 확률변수 X와 Y에 대한 n개의 관측값 $(x_{1},y_{1}),(x_{2},y_{2})…(x_{n},y_{n})$ 으로 주어 졌다면 두 변수간 연관 관계를 확인 할 수 있다.
두 변수의 연관 관계를 확인 할 수 있는 그래프로는 산점도가 있다.
아래의 그래프는 33개국 인터넷 사용(X) 와 페이스 북 사용(Y) 의 산점도 그래프이다.
“인터넷 사용률이 적으면 페이스북 사용량도 적을 것이다”라는 가설을 전제하에 인터넷 사용과 페이스북의 사용이 상관관계가 있을까? 라는 계산을 할 수 있다.
그래프를 확인하면 인터넷 사용률이 크면 페이스북 사용량도 크다 라는 것을 그래프를 토대로 확인할 수 있다.
여기서 수치적으로 확인하기 위해 공분산을 사용할 수 있다.
– 공분산의 계산식
$S_{XY} = \dfrac{\sum_{i=1^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{n-1}$
$(x_{i}-\bar{x})$ 은 영역 1과 4에서는 양(+)의 값을 가지고 영역 2와 3에서는 음(-)의 값을 가진다.
$(y_{i}-\bar{y})$ 은 영역 1과 2에서는 양(+)의 값을 가지고 영역 3과 4에서는 음(-)의 값을 가진다.
$(x_{i}-\bar{x})(y_{i}-\bar{y})$은 영역 1과 3에 존재하는 관측값들의 숫자가 영역 2와 4에 존재하는 관측값들의 숫자보다 많으면 공분산은 양(+)의 값을 가지고 반대의 경우 음의 값을 가진다.
– 상관계수 계산식
각 변수를 표준화 한 후 계산한 공분산
$r_{XY} = \dfrac{\sum_{i=1}^{n}(\dfrac{x_{i}-\bar{x}}{S_{x}})(\dfrac{y_{i}-\bar{y}}{S_{y}})}{n-1}= \dfrac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$
여기서
$\bar{x} = \dfrac{1}{n}\sum_{i=1}^{n}x_{i}, s_{x} = \sqrt{\dfrac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}}$
$\bar{y} = \dfrac{1}{n}\sum_{i=1}^{n}y_{i}, s_{y} = \sqrt{\dfrac{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}{n-1}}$
으로 이 상관계수는 피어슨 상관계수(Pearson correlation coefficient)라 부른다.
– 상관계수 r의 성질
상관계수 값은 -1에서 1의 사이의 값을 갖는다. r의 값이 의미하는 것은 X와 Y간의 선형관계를 나타내는 측도이다. 비 선형 연관관계를 설명하는데는 부족하다. 강한 비선형 연관관계를 가지거나 r = 0 일 때의 산점도를 확인하면 아래와 같다.
r의 값이 양이면 양의 상관관계가 있고, 음이면 음의 상관관계를 가진다. r이 값에 $\pm1$에 가까워질수록 선형연관성의 강도는 높아지고 산점도의 점들이 직선 주위에 밀집되어 나타난다. r 값이 0에 가까워질수록 선형 연관성의 관계는 낮아진다. X가 aX+b로 바뀌고 Y가 cY+d로 바뀌어도 a와 c의 부호가 같으몀 r의 값에는 변함이 없다.
– 산점도의 모양에 따른 상관계수
3. 두 확률변수의 결합분포
두개 이상의 확률변수들이 서로 확률적 관계를 가지면서 관측될 수 있다. 아래의 예제를 보면 Y, Z의 확률변수는 동일한 확률 분포를 가진다.
예제)
서로 다른 동전 A,B,C를 던지는 실험에서 확률변수
Y와 Z 각각의 확률분포표
Y의 확률분포를 보면 동전 A,B를 던졌는데 두개 다 표면이다. 두개 다 표면의 확률은 $\dfrac{1}{4}$ 이고 Y가 1이 될 확률은 $\dfrac{1}{4}$ 이다.
Z의 확률분포를 보면 동전 B,C를 던졌는데 두개 다 표면이다. 두개 다 표면의 확률은 $\dfrac{1}{4}$ 이고 Z가 1이 될 확률은 $\dfrac{1}{4}$ 이다.
여기서 두개의 연속형 확률변수 Y와 Z의 분포는 같다고 하더라도 2개의 확률변수들을 동시에 고려할 때 X와 Y의 확률적 관계가 X와 Z의 확률적 관계와 반드시 일치하지는 않는다.
예제)
X 가0 이면 Y 는 무조건 0 이다.
X가0 이면(동전 A가 표변이 아닐 때) Z가 0일 확률은 $\dfrac{3}{4}$, Z가 1일(B,C가 모두 표면일 때) 확률은 \dfrac{1}{4}
즉 X의 기준으로 봤을 때 Y와 Z의 확률 분포는 완전히 달라진다.
– 두 확률변수의 결합분포(joint probability distribution)
두 개의 확률변수 X와 Y에 대하여, 수직선의 두 개의 부분집합 A,B에 대하여 확률 $P(X\inA, Y\inB)$ 를 대응시켜주는 관계
– X와 Y의 결합확률질량함수(joint probalility mass function)
두 이산확률변수 X와 Y가 각각 $x_{1},x_{2},…$와 $y_{1},y_{2},….$의 값을 취할 때, $(x_{i},y_{j}), i,j=1,2……$ 각각에 대하여 $P(X=x_{i},Y=y_{i})$를 대응시켜주는 관계
$f(x,y) = \begin{cases}P(X=x_{i},Y=y{i}) & \mbox{if} X=x_{i}, Y=y{i} \\0 & \mbox{otherwise} \end{cases}$
– 결합확률질량함수의 성질 : 이상확률변수 X와 Y의 결합확률질량함수
$f(x_{i},y_{j}) = P(X=x_{i}, Y=y_{j})$에 대하여
$f(x_{i},y_{j}) \ge 0, \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}f(x_{i},y_{j}) = 1$
$P(a <X \le b, c<Y\le d) = \sum_{a<x_{i}\le b}\sum_{c<y_{i}\le d}f(x_{i},y_{j})$
– X와 Y의 결합확률분포는 이들의 결합확률질량함수에 의해 결정됨, 이를 결합확률분포표로 나타내면 편리하다.
예제)
X 와 Y의 결합확률분포료
X가 0이면서 Y가 0일 확률만 보면 X가 0일 확률은 $\dfrac{1}{2}$이다. X가 0이면 Y는 자동적으로 0이다.
열의 합을 보면 X의 확률질량함수 P(X) 가 되고 행의 합을 보면 Y의 확률질량함수 P(Y) 가 된다.
X와 Z의 결합확률분포표
X=1, Z=1 이 될 확률은 X가 앞면이 나올 확률은 $\dfrac{1}{2}$ 이고 동전B와 C가 앞면 $\dfrac{1}{2} \times \dfrac{1}{2}$ 이 되어야 한다.
– X의 주변확률질량함수(marginal probability mass function) : $\sum_{j=1}^{infty}(x_{i),y_{j})$
– Y의 주변확률질량함수(marginal probability mass function) : $\sum_{i=1}^{infty}(x_{i),y_{j})$
의 식으로 주변확률질량함수를 구할 수 있고, 위 X,Y의 결합확률 분포표에서 Z의 주변확률 질량함수 $\dfrac{3}{4}, \dfrac{1}{4}$이고 X의 주변확률 질량함수 $\dfrac{1}{2} \dfrac{1}{2}$ 이다.
예제:
하나의 주사위를 던져서 나온 눈에 따라 상금이 걸린 게임
X :
1 또는 2가 나오면 100원
3 또는 4가 나오면 200원
5 또는 6이 나오면 300원
Y:
짝수가 나오면 100원
홀수가 나오면 (눈의 수 $\times$ 100) 원
해석 : Y가 100원이 될 값은 주사위값이 1,2,4,6 이 나오면 100원이다. Y 가 100일 때 행의 값이 $\dfrac{4}{6}$ 이다.
X가 100원이 되려면 주사위가 1,2 가 되어야 하고 Y가 100이 되려면 주사위는 1,2,4,6이 되어야 하는데 두개 같이 100원이 되어야 하고 주사위는 한번 던졌을 기준이라 1,2 가 되어야 한다.
X가 200원이 되려면 주사위 3,4 가 되어야 하고 Y가 100이 되려면 수사위는 1,2,4,6 이 되어야 한다. 주사위가 4가 나와야 동시에 X는 200원 Y는 100이 된다.
– 두 확률변수의 함수도 확률변수이다.
예제)
A와 B의 수입의 합 Z의 분포
– 두 이산 확률변수의 함수의 기대값
두 확률변수 X,Y의임의의 함수 $U_{1},U_{2}$ 에 대하여
$E[U(x,y)] = \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}U(x_{1},y_{1})f(x_{y},y_{1})$
$E[c_{1}U_{1}(x,y)+c_{2}U_{2}(x,y)] = c_{1}E[U_{1}(x,y)] + c_{2}E[U_{2}(x,y)]$
공분산과 상관계수
기대값이 각각 $\mu_{X}, \mu_{Y}$ 인 두 확률변수 X,Y에 대하여
공분산은 $Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})]$
상관계수 $Corr(X,Y) = \dfrac{Cov(X,Y)}{sd(X)sd(Y)}$
C0v(X,Y) = E[XY] – E[X]E[Y} 로 계산 할 수 있다.
(증명)
$Cov(X,Y) = E[(X-\mu_{X})(Y-\mu_{Y})]$
$= E[XY – X\mu_{Y} – \mu_{x}Y + \mu_{X}\mu_{Y}]$
$= E[XY]-E[X]\mu_{Y} – \mu_{X}E[Y] + \mu_{X}\mu_{Y}$
$= E[XY]-E[X]E[Y] – E[X]E[Y] + E[X]E[Y]$
$= E[XY] – E[X]E[Y]$
– 공분산과 상관계수의 성질
$Cov(aX+b,cY+d) = acCov(X,Y)$
$Corr(aX+b,cY+d) = \begin{cases}Corr(X,Y) &\mbox{if} ac>0 \\ -Corr(X,Y) &\mbox{if} ac<0 \end{cases}$
(증명)
– 두 확률변수의 합의 분산
$Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$
$Var(X-Y) = Var(X) + Var(Y) – 2Cov(X,Y)$
(증명)
두 확률변수의 독립성
– 두 확률변수 X와 Y의 결합분포에서 모든(x,y) 에 대하여 $f(x,y) = f_{1}(x)f_{2}(y)$ 가 성립할 때, X와 Y는 서로 독립이라 한다. X와 Y가 서로 독립이 아니면 서로 종속이라고 한다.
예제)
하나의 동전을 세번 던질 때 X=처음 두번에서 나오는 표면의 개수, Y=세 번째에서 나오는 표면의 개수
모든 (x,y)에 대하여 $f(x,y)=f_{1}(x)f_{2}(y)$ 가 성립한다. 따라서 X와 Y는 서로 독립이다.
– 두 확률변수가 서로 독립인 경우
$E(XY) = E(X)E(Y)$
$Cov(X,Y)=Corr(X,Y) = 0$
$Var(X \pm Y) = Var(X) + Var(Y)$