Model Building and Applying

Model Building and Applying

모형에서 설명변수 X 가 반응변수 Y 에 대하여 유의한 값을 가지는 변수를 찾아내 최적의 모형을 만드는데 목적이 있다.

confirmatory – 확정적

모델을 설정하고 해당 모델의 특정변수의 윰무에 따라 모델을 비교하여 변수를 선택한다. 모형에 추가된 모수들 중 적어도 하나가 0이 아니라는 대립가설에 대한 검정을 통해 간단한 모형이 적합한지 여부를 검정할 수 있고, LR test 등 모형들간의 이탈도 통계량을 구하여 적합한지 결정할 수 있다.

exploratory – 탐색적

기존의 이론없이 탐색하여 모델을 비교하여 변수를 선택한다. 변수를 여러가지 조합으로 선택한 후 적합한 모형을 찾아간다.

1. 목적

예를 들어 다중공선성(Multicollinearity) 이 있을 때 예측변수간의 강한 상관관계 때문에 중요한 변수가 중요하지 않는 문제가 생길 수 있고, 이러한 경우 중복된 변수를 제거함으로써 예측효과의 표준오차를 줄인다.

2. 변수 선택

All possible models : 설명변수 X 가 p개 있을 때 $2^{p}$개의 모델의 경우가 생긴다.

Backward elimination(후진 소거법) : 가장 복합한 모델을 만든 후 설명변수 하나씩 제거 하면서 모델을 평가한다. 단 한번 빠진 변수는 다시 들어갈 수 없다.

Forward selection(전진 선택법)  : 변수를 하나씩 추가하면서 모델을 평가한다. 단 추가된 변수는 다시 제거 할 수 없다.

Stepwise selection : 변수를 추가, 제거를 반복적으로 하여 모델을 평가 한다.

3. 모델 선택

변수의 선택에 따라 여러가지 모델이 만들어지고, Deviance, LR stat, AIC 의 기준으로 모델을 선택한다.

Deviance

$H_{0} : Model M_{0} vs H_{1} : Model M_{1}$

특정한 모델과 가장 복잡한 모델과의 차이를 구하여 값이 작으면 작을 수록 좋은 모델이다.

Deviance = $-2(L_{M} – L_{S}) \ ~ \ \chi^{2}_{df}$

LR stat(Model comparison)

LR stat 값이 크면 p-value 가 낮아지고 이러한 경우는 $M_{0}$ 모델 보단 $M_{1}$이 더 좋은 모델이다.

$H_{0} : Model M_{0} vs H_{1} : Model M_{1}$

LR stat = $-2log(\dfrac{l_{0}}{l_{1}}) = -2(L_{0} – L_{1}) = Dev_{0} – Dev_{1}$

LR stat ~ $\chi^{2}_{df}, $ df = $M_{0}과 M_{1}$사이의 모수의 차이

AIC(Akake information criterion(AIC)

AIC가 작은 값일 수록 더 좋은 모델이다.

AIC = -2(log-likelihood)

예시)

변수의 전진 선택법에 따라 Deviance, AIC, Deviance Difference 의 값을 확인하여 모델을 선택 할 수 있다.

4. 모델 확인

Pearson residual

$e_{i} = \dfrac{y_{i} – \hat{\mu}_{i}}{\sqrt{Var(y_{i})}} \ ~ \ N(0,\sigma^{2})$

Standardized residual

$r_{i} = \dfrac{y_{i}-\hat{\mu_{i}}}{\sqrt{\hat{Var(y_{i})}(1-\hat{h_{i}})}} \ ~ \ N(0,1)$

$|r_{i}| > 2 or 3$이면 i번째 변수 때문에 fit이 잘 맞지 않는다.

Dfbata

특정 변수를 삭제 했을 때 $\hat{\beta} 값이 변하는 정도이고 , 변하는 정도가 크면 클수록 해당 변수는 중요한 값이 된다.

Deviance

특정 변수를 제거 했을 때 Deviance의 차이가 크면 특정 변수가 영향을 많이 준다고 볼 수 있다.

예시)

표를 해석 하면 혈압이 111.5 일 때 전체 156명중에 3명이 병이 있다. 협압이 121.5 일때 standardized residual, dfbeta, deviance decrease값이 크다. 혈압 121.5가 모델에 영향을 많이 준다고 볼 수 있다.

5. 예측

Logistic regression model에 적합을 하면 추정값을 얻을 수 있다.

$logit(\hat{\pi_{i}}) = log(\dfrac{\hat{\pi_{i}}}{1-\pi_{i}}) = \hat{\beta_{0}} + \hat{\beta_{1}}x_{1} + \hat{\beta_{p}}x_{pi}$

$\hat{\pi_{1}}=\dfrac{exp(\hat{\beta_{0}} + \hat{\beta_{1}}x_{1}+…+\hat{\beta_{p}}x_{pi})}{1 + exp(\hat{\beta_{0}} + \hat{\beta_{1}}x_{1}+…+\hat{\beta_{p}}x_{pi})}$

여기서 $\hat{\pi_{ㅑ}}$는  $P(Y_{i}=1)$ 이다 i번째 y가 1이 될 확률이다.

$\hat{Y_{i}} = \begin{cases}1, & \mbox{if } \hat{\pi} > \pi_{0} \\ 0 & \mbox{if } \hat{\pi_{1}} \le \pi_{0} \end{cases}$

만약 $\pi_{0}$이 0.5 이면 cutoff는 0.5 이다.

“Model Building and Applying”의 8개의 댓글

  1. I just like the helpful info you provide in your articles.
    I’ll bookmark your blog and test once more right here frequently.
    I’m rather sure I’ll be told a lot of new stuff proper here!
    Best of luck for the next!

  2. Heya this is kinda of off topic but I was wanting to know if blogs use WYSIWYG editors or if you
    have to manually code with HTML. I’m starting a blog soon but have no
    coding experience so I wanted to get advice from someone with experience.
    Any help would be greatly appreciated!

답글 남기기