Logistic Regression

Logistic Regression

반응변수 Y 의 값이 바이너리 형태(“합격 or 불합격”, “성공 or 실패”)인 경우에 Logistic Regression 모델을 사용한다.

설명변수 X는 어떤 변수(연속형, 범주형) 가 와도 상관없다.

1. Logisitc Regression 모델

$logit[\pi(x)] = log(\dfrac{\pi(x)}{1-\pi(x)}) = \beta_{0} + \beta_{1}x$

$\pi(x) = \dfrac{exp(\beta_{0} + \beta_{1}x)}{1+exp(\beta_{0} + \beta_{1}x)}$

2. Logistic regression 특징

$\beta_{1}$이 양수일 때 x가 커지면 $\pi$도 커지지만 x와 $\pi$는 비선형 관계이고, x가 한단위 증가할 때 마다 $\beta_{1}$ 배 만큼 증가한다.

$\beta_{1}$ 은  S curve 형태의 증감의 비율로 되어 있다.

$|\beta_{1}|$ 이 크면 변화의 비율도 커진다.

S curve 의 기울기는 $\beta_{1}\pi(x)[1-\pi(x)]$ 가 되고,  $\pi(x)$ = 0.50 일 때 가장 가파른 기울기가 된다. 이때 x의 값은 $ -\dfrac{\beta_{0}}{\beta_{1}}$ 가 된다.

반응변수 Y의 odds의 값은 $\dfrac{\pi(x)}{1-\pi(x)} = e^{\beta_{0}+\beta_{1}x} = e^{\beta_{0}}e^{\beta_{1}x}$ 이 된다.

예시)

어떤 데이터의 추정값이 $log(\dfrac{\pi(x)}{1-\pi(x)} = -.12.351 + 0.497x$ 의 결과가 나왔을 때 x가 증가하면 증가할수록 확률도 증가하고,  odds의 값은 $e^{0.497}$, 즉 1.64배 만큼 증가한다.

3. Logistic regression 추정

점추정

Wald CI : $\hat{\beta_{1}} \pm Z_{\alpha/2}SE$

구간추정

LR CI : $-2log(\dfrac{l_{0}}{l_{1}}) = -2(L_{0} – L_{1}) ~ X^{2}_{1}$

예시)

Wald CI : $\beta_{1} = 0.497, \ SE =0.102$ 일 때 신뢰구간은 (0.398,0.697)  으로 0을 포함하고 있지 않어 0가 다른 유의한 값이다 라고 추정할 수 있다.

LR CI : (0.398, 0.709) 가 된다.

odds CI : ($e^{0.308}, e^{0.709}$) 로 (1.136, 2.03) 이 된다. odds는 1이 되면  독립의 의미 이고, 여기서는 $\beta_{1}$이 0 라는 의미이다. 해당 값을 보면 1을 포함하고 있지 않아 유의한 값이다라고 추정할 수 있다

4. Logistic regression 검정

$H_{0} : \beta_{1} = 0$

Wald test : $Z = \dfrac{\hat{\beta_{1}}}{SE} \ ~ N(0,1) \ or Z^{2} \ ~ \ X^{2}_{1}$

LR test : -$2log(\dfrac{l_{0}}{l_{1}}) = -2(L_{0} – L_{1}) \ ~ \ X^{2}_{1}$

예시)

Wald test : $\beta_{1} = 0.497, \ SE =0.102$ 일 때 $Z = \dfrac{0.497}{0.102} = 4.9$로 정규분포 4.9보다 클 확률은 0.001보다 작다. 그래서 귀무가설을 기각을 한다 . 그래서 $\beta_{1}$은 0이 아니다.

LR test : $L_{0} = -112.38, \ L_{1} = -97.23$ 으로 $-2(L_{0} – L_{1}) = 31.3$ 는 자유도가 1인 $\chi^{2}$ 분포를 따르고, 31.3보다 클 확률은 0.001보다 작다. 그래서 $\beta_{1}$은 0이 아니다.

5. Logistic regression 확률

$\hat{\pi(x)} = \dfrac{exp(\hat{\beta_{0}} + \hat{\beta_{1}}x)}{1+exp(\hat{\beta_{0}} + \hat{\beta_{1}}x)}$ 로 확률을 구할 수 있다.

예시)

$\beta_{0} = -12.35, \ \beta_{1} = 0.497$ 일 때, $\hat{\pi(26.5)} = \dfrac{exp(-12.35+0.497\times 26.5)}{1+exp(-12.35+0.497 \times 26.5)} = 0.695$ 가 된다. x가  26.5가 되면 y 가 1이 될 확률이 0.695가 된다.

Multiple Logistic Regression

반응변수 Y는 바이너리 데이터이고 설명변수 X는 하나가 아니라 여러개의 X가 있다.

1. Multiple Logisitc Regression 모델

$logit[P(Y=1)] = logit[\pi(x)] = log(\dfrac{\pi(x)}{1-\pi(x)}) = \beta_{0} + \beta_{1}x_{1} + \cdot \cdot \cdot + \beta_{p}x_{p}$이다

$\dfrac{\pi(x)}{1-\pi(x)} = e^{\beta_{0}+\beta_{1}x_{1} + \cdot \cdot \cdot + \beta_{p}x_{p}} = e^{\beta_{0}}e^{\beta_{1}x_{1}}\cdot \cdot e^{\beta_{p}x_{p}}$ 로 x가 한단위 증가 할때 마다 odds는 $e^{\beta_{1}}$ 배 증가한다.

예시-1)

설명변수는 color, width 로 color은 범주형으로 가변수로 변환하여 추정을 하였다.  color2,3,4는 p-value가 0.05보다 커 귀무가설($H_{0} : \beta_{1} = 0$)을 기각하지 못한다. color1 의 비해 다른 color 값은 의미가 없다.

예시-2)

$2\times 2 \times 2$ 의 테이블이고 범주형 설명변수를 가지고 있다.

기존에서는 X,Y의 독립여부를 확인 하기 위해 $\chi^{2}$ test 이나 fisher exact 를 사용하여 검정을 할 수 있다. 위와 같은 데이터는 변수가 두개가 아니라 3개의 경우이다.  simpson’s paradox 에 빠질수 있는 경우로 해석이 달라질수 있다. Race와 Symptoms, AZT와 Symptoms의 관계를 알기 위해서 logisitc regression 을 사용할 수 있다. 모든 변수가 범주형 변수에도 logistic regression으로 해석할 수 있다.

$logit[P(Y=1)] = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2}$ 의 모델을 사용하여 해석을 할 수 있다.

답글 남기기