다중공선성

다중공선성 문제

1. 정의

회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제이다. 독립변수들간에 정확한 선형관계가 존재하는 완전공선성의 경우와 독립변수들간에 높은 선형관계가 존재하는 다중공선성으로 구분한다.

2. 진단

  • 결정계수 $R^{2}$ 값은 높아 회귀식의 설명력은 높지만 독립변수 P-value 값이 커서 개별 인자들이 유의하지 않는 경우가 있다. 이런 경우 독립변수들 간에 높은 상관관계가 있다고 의심이 된다.
  • 독립변수들간의 상관계수를 구한다.
  • 분산팽창요인을 구하여 이 값이 10이 넘는다면 다중공선성 문제가 있다.

3. 해결법

  • 상관관계가 높은 독립변수중 하나 혹는 일부를 제거한다.
  • 변수를 변형시키거나 새로운 관측치를 이용한다.
  • 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 팍악한다.
  • PCA를 이용한 diagonal matrix의 형태로 공선성을 없애준다.

답글 남기기

이메일 주소를 발행하지 않을 것입니다.