Linear Regression – 선형회귀분석

Linear Regrssion 분석을 하기 위한 기초 수식과 모형의 가설을 검정하고, 최적의 모형을 찾는 방법을 기술한다.

Linear Regression

회귀 분석은 반응변수가 설명변수들에 의해 어떻게 설명되는지를 알아보기 위해 그 관계를 적절한 함수식으로 표현하여 분석하는 통계적 자료 분석 방법이다.

선형모형이란

추정 parameter 의 선형결합으로 표현할 수 있는 모델

일반 선형모델(General Linera model)

모수의 선형적 결함에 의한 인과 관계 모형이다.

Linear Regress, ANOVA, ANCOVA, MANOVAm MANCOVA, Mixed Model 의 통계적 방법론을 사용한다.

일반화 선형모델(Generalized Linear Model)

Link function 을 이용해 선형적 결합 형태로 변환한다.

Logistic Regressio , Poisson Regression, Gamma REgresion 등의 통계적 방법론을 사용한다.

Linear Regression 의 최소 제곱 추정(Least Squares Estimation)

회귀 모형의 각 변수의 계수 값을 추정하기 위한 공식이다.

$SSE(\beta_{0}, \beta_{1}) = \sum_{i=1}^{n}e_{i}^{2} = \sum_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2} = \sum_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})^{2}$

SSE 가 최소화 하는 $\beta_{0}$, $\beta_{1}$ 을 추정한다.

$\hat{\beta_{0}} = \bar{y} – \hat{\beta_{1}}\bar{x}$

$\hat{\beta_{1}} = \dfrac{\sum_{i=1}^{n}(y_{i}-\bar{y})(x_{i}-\bar{x})}{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}$

$\hat{\sigma^{2}} = S^{2} = \dfrac{1}{n-1}\sum_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})^{2} = MSE$

$y_{i} = \beta_{0} + \beta_{1}x_{i1} + \beta_{2}x_{i2} + ….. + \beta_{k}x_{ik} + \epsilon_{i}$ ⇒ $y = X\beta + \epsilon$

$S(\beta) = \sum_{i=1}^{n}\epsilon_{i}^{2} = \epsilon^{\prime}\epsilon = (y-X\beta)^{\prime}(y-X\beta)$ 에서 최소가 되는 $\beta$ 를 찾는다.

$S(\beta) = (y-X\beta)^{\prime}(y-X\beta)$

$= y^{\prime}y – \beta^{\prime}X^{\prime}y-y^{\prime}X\beta + \beta^{\prime}X^{\prime}X\beta$

$= y^{\prime}y – 2y^{\prime}X\beta+\beta^{\prime}X^{\prime}X\beta$

$\dfrac{\partial S}{\partial \beta} = -2X^{\prime}y + 2X^{\prime}X\hat{\beta} = 0$

$X^{\prime}X^{\prime}\hat{\beta} = X^{\prime}y$

여기서 Least-squares estimators of $\beta$ 는

$\hat{\beta} = (X^{\prime}X)^{-1}X^{\prime}y$

BLUE(Best Linear Unbiased estimator) 라고 부른다.

Linear Regression 오차에 대한 가정

$\epsilon_{1}, \epsilon_{2}, \cdot \cdot \cdot \epsilon_{n}$ 은 서로 독립이고 동일한(independently and identically distribute: iid) 정규확률변수로서 평균 0 과 분산 $\sigma^{2}$ 을 가지는 것으로 가정된다.

등분산성 : $Var(\epsilon) = \sigma^{2}$

정규성 : $\epsilon$ ~ $N(0, \sigma^{2})$

독립성 : $Cov(\epsilon_{i}, \epsilon_{j}) = 0, i \neq j$

위 가정을 만족해야 한다.

다중상관계수

반응값과 예측값의 상관계수 : $Cor(Y, \hat{Y}) = \dfrac{\sum(y_{i} – \bar{y})(\hat{y_{i}}-\bar{\hat{y}})}{\sqrt{\sum(y_{i} – \bar{y})^{2}\sum(\hat{y_{i}}-\bar{\hat{y}})^{2}}}$

결정계수 $R^{2} = \dfrac{SSR}{SST} = 1 – \dfrac{SSE}{SST} = 1 – \dfrac{\sum(y_{i}-\hat{y_{i}})^{2}}{\sum(y_{i}-\bar{y})^{2}}$

다중상관계수 : $R = \sqrt{R^{2}}$

수정결정계수 : $R^{2}_{a} = 1 – \dfrac{SSE / (n-p-1)}{SST/(n-1)}$

Linear Regression 모형에서의 가설검정

  • 예측변수들과 연관된 모든 회귀계수들이 0이다.
  • 회귀계수들 중 일부분이 0이다.
  • 회귀계수들 중 일부분이 서로 같은 값을 가진다.
  • 회귀모수들이 특정한 제약 조건을 갖는다.

완전 모형(Full Model : FM)

$Y = \beta_{0} + \beta_{1}X_{1} + \beta_{1}X_{1} + … + \beta_{p}X_{p} + \epsilon$

  • 잔차 (오차) 제곱합 : SSE(FM) = $\sum(y_{i} – \hat{y_{i}})^{2}$

추정될 모수의 개수 = $p +1$, 자유도 = $n_{1} = n – (p + 1) = n – p – 1$

축소모형 (Reduce Model : RM)

$Y = \beta_{0} + \beta_{1}X_{1} + \beta_{3}X_{3} + \epsilon$

  • 잔차(오차) 제곱합 : SSM(RM) = $\sum(y_{i}-\hat{y_{i}})^{2}$

추정될 모수의 개수 = k, 자유도 = $n_{2} = n – k$

검정 통계량

$H_{0}$ : 축소모형이 적절하다. $H_{1}$ : 완전모형이 적절하다

$F = \dfrac{[SSE(RM) – SSE(FM)]/(p+1-k)}{SSE(FM)/(n-p-1)}$

분모의 자유도 = $n_{1} = n – p – 1$, 분자의 자유도 = $n_{2} – n_{1} = p + 1 – k$

모든 회귀계수들이 0인가에 대한 검정

검정통계량

$H_{0}$ : 축소모형이 적절하다. $H_{1}$ : 완전모형이 적절하다

$F = \dfrac{[SSE(RM) – SSE(FM)]/(p+1-k)}{SSE(FM)/(n-p-1)}$

$= \dfrac{[SST-SSE]/p}{SSE/(n-p-1)} = \dfrac{SSR/p}{SSE/(n-p-1)} = \dfrac{MSR}{MSE}$

Related Posts

답글 남기기

이메일 주소는 공개되지 않습니다.