ARIMA 모형 (비계절성) – 시계열분석

ARIMA – 비계절성

정상시계열과 ARIMA 모형

– 정상시계열이란

데이터가 시간이 지나도 trend가 없이 자기 위치에서 움직이는 시계열 자료로 완벽한 정상 시계열은 백색잡음이다(white noise)

– 백색잡음과정(white noise preocess)

백색잡음의 식을 보면 $z_{t} = \mu + \alpha_{t}, t=1,2,….T$, $\rho_{k} = Corr(z_{t},z_{t-l}) = 0$  오늘 데이터와 어제의 데이터의 연관성은 0이다.

– 확률보행과정(random walk process)

확률보행과정의 식을 보면 $z_{0} = \mu, z_{t} = z_{t-1} + \alpha_{t} \ \ \ t=1,2,…,$ 이다. 오늘 데이터는 어제 데이터와 약간의 에러와 같다. 즉 오늘 데이터는 어제 데이터에 영향을 받는다. 백색잡음과정과 완전 다른 형태의 데이터이다.

$Cov(z_{t},z_{t-k} = Cov(a_{1} + a_{2} + \cdot \cdot \cdot + a_{t}, a_{a} + a_{2} + \cdot \cdot \cdot + a_{t-k})$

$=Var(a_{1} + a_{2} + \cdot \cdot \cdot + a_{t-k})$

$=(t-k)\sigma^{2}$ 공분산(C0v)의 결과식을 보면 시간에 영향을 받는다. 즉 시간이 커지면 분산도 커진다.

$\rho_{t,k} = Corr(z_{t},z_{t-k}) = \dfrac{Cov}{Cov(0)}=\sqrt{\dfrac{t-k}{t}}$  이 식을 바탕으로 Corr 의 특징을 보면 시간이 커지면 커질수록 1의 값으로 간다. 즉 오늘 시계열 자료와 과거 시계열 자료와 연관이 있다. 확률 보행과정과 속성이 같은 시계열이 있다면 적당히 조작을 하고 수리적 조정을 하여 백색잡음 형태의 데이터로 만들어야 한다.

– 정상확률과정의 정의

평균이 일정하다 (모든 t에 대해 $E(z_{t}) = \mu$). 분산이 존재하며 상수이다. (모든 t에 대해 $Var(z_{t}) = \gamma(0) < \infty$. 두 시점 사이의 자기공분산은 시차에만 의존한다. 모든 t와 s에 대해 $Cov(z_{t},z_{s}) = \gamma(|t – s|)$  -> $Cov(z_{1}, z_{11})$와 $Cov(z_{21},z_{31})$ 이다. 즉 1년전 11년전 데이터와 21년전 31년전 데이터를 보면 이 집단의 차이는  똑같이 10년의 차이가 나는 상황에서 공분산의 값은 같다.

ARMA모형

ARMA모형은 AR모형(자기회귀과정), MA모형(이동평균과정) 으로 구성된다.

AR(1) 모형

AR(1) 과정의 식은 $z_{t} = \phi z_{t-1} + a_{t}$,  $|\phi| < 1$, $Cov(a_{t},z_{t-k}) = 0$  로 표현되고, 현 시점에서의 시계열 값이 가장 최근 시점의 시계열 값에 가장 많은 영향을 받으며 시간이 지날 수록 그 영향의 정도가 지수적으로 감소한다.

– 자기공분산 계산

$z_{t} = \phi z_{t-1} + a_{t} = \phi(\phi z_{t-2} + a_{t-1}) + a_{t} = \phi^{2} z_{t-2} + \phi a_{t-1} + a_{t}$

$= … = \phi^{k} z_{t-k} + \sum_{i=0}^{k-1}\phi^{i} a_{t-i}$

$\gamma(k) = Cov(z_{t},z_{t-1}) = \phi^{k}Var(z_{t-k}) = \phi^{k}\gamma(0)$

– 자기 상관계수

$Corr(z_{t},z_{t-k} = \phi^{k})$ 으로 $z_{t-1}$이 $z_{t}$ 를 설명하는데 $\phi$ 만큼의 상관관계(정보)를 가지고 있고 $z_{t-k}$는 $\phi^{k}$ 만큼의 정보를 가지고 있고, 과거로부터 정보가 지수적으로 감소한다.

AR(2) 모형

AR(2) 과정의 식은 $z_{t} = \phi _{1}z_{t-1} + \phi _{2}z_{t-2}+ a_{t}$ 와 같다

– 분산

$\gamma(0) = E(z_{t}z_{t} = Var(z_{t}) = \phi_{1}E(z_{t}z_{t-1}) + \phi_{2}E(z_{t}z_{t-2}) + E(z_{t}a_{t})$

$= \phi_{1}E(z_{t}z_{t-1}) + \phi_{2}E(z_{t}z_{t-2}) + E((\phi_{1}z_{t-1}+\phi_{2}z_{t-2})a_{t})$

$= \phi_{1}\gamma(1) + \phi_{2}\gamma_{2} + \sigma^{2}$

– 자기공분산

$E(z_{t}z_{t-k}) = \phi_{1}E(z_{t-1}z_{t-k}) + \phi_{2}E(z_{t-2}z_{t-k}) + E(a_{t}z_{t-k})$

$= \phi_{1}E(z_{t-1}z_{t-k}) + \phi_{2}E(z_{t-2}z_{t-k}) + E(a_{t}(\phi_{1}z_{t-k-1} + \phi_{2}z_{t-k-2}+a_{t-k}))$

$= \phi_{1}\gamma(k-1) + \phi_{2}\gamma(k-2) = \gamma(k)$

– 자기상관

$\rho_{k} = Corr(z_{t},z_{t-k} = \dfrac{\gamma(k)}{\gamma(0)} = \phi\dfrac{\gamma(k-1)}{\gamma(0)} + \phi_{2}\dfrac{r(k-2)}{r(0)}$

$\phi_{1}\rho_{k-1} + \phi_{2}\rho_{k-2}$

– 정상성 가정의 조건

$\phi_{1} + \phi_{2} < 1, \ \ \phi_{2} – \phi_{1} < 1, \ \ \ -1<\phi_{2}<1$

– 후항연산자의 정의(Backward Operator)

$B^{k}z_{t} = z_{t-k}$로 정의 할 수 있고 예를들면 $Bz_{t} = z_{t-1}, B^{2}z_{t} = z_{t-2}$ 로 쓸 수  있다.

AR(2) : $z_{t} = 0.5z_{t-1} + 0.6z_{t-2} + a_{z}$ 로 나타낸다면

$= (0.5B + 0.6B^{2})z_{t} + a_{t}$이고 $(1-0.5B-0.6B^{2})z_{t}= a_{t}$ 로 다시 정의 할 수 있다.

$\phi(B)z{t} =a_{t}$로 다시 나타낼 수 있다. $\phi(B)$를 특정방정식(Characteristic function) 이라고 한다.

AR(p) 모형의 정상성의 조건은 특정방정식의 근의 절대값이 모두 1보다 커야 한다.

MA 모형

$z_{t} = \mu + a_{t} + \theta a_{t-1}$

오늘 잔차와 어제 잔차와의 Corr 이 있는 경우이다.

– 분산

– 시차1의 자기 공분산

– 시차1의 자기공분산 함수

$Corr(z_{t},z_{t-1}= \begin{cases} -\theta\sigma^{2} & \mbox{k=1} \\ 0  & \mbox{k} \ge {2} \end{cases}$

MA(1) 과정에서는 시차 1에서만 공분산을 가진다.

MA(1) 과정은 분산이 항상 존재함으로 정상성 조건을 항상 만족한다

$z_{t}$를 설명하는 것은 오직 $z_{t-1}$뿐이다.

MA(q) 과정의 특성방정식

$z_{t} = a_{t}  + 0.6a_{t-1} = (1 + 0.6B)a_{t} = \theta(B)a_{t}$

가역성 조건(Invertibility condition)

$\theta(B) = 0$의 모든 근의 절대값이 1보다 커야 한다.

MA(q) 과정의 계수 $\theta$를 유일하게 결정하기 위해서는 가역성 조건을 만족하여야 한다.

AR 과정은 항상 가역성 조건을 만족한다.

정상성 조건을 만족하는 AR(p) 과정은 MA($\infty$) 로 재표현가능하다.

AR : $\phi(B)z_{t} = a_{t}$

MA : $z_{t} = \theta(B)a_{t}$ 에서 만약 $\theta(B)^{-1}$이 존재한다면 $\theta(B)^{-1}z_{t} = a_{t}$ 로 될 수 있고 AR 모형을 MA 모형으로 표현할 수 있다.

가역성 조건을 만족하는 MA(q) 과정은 AR($\infty$) 과정으로 표현 가능하다. 직관적으로 AR 과정을 고려하는 것이 매우 타당하나 AR 과정의 차수가 길어지는 경우 MA 과정을 도입함으로써 보다 간결한 모형의 구축이 가능하게 된다.

ARMA(p,q) 모형

AR : $\phi(B)z_{t} = a_{t}$

MA : $z_{t} = \theta(B)a_{t}$

ARMA : $\phi(B)z_{t} =\theta(B)a_{t}$

ARIMA 모형

I는 차분을 해준다. 즉 추세가 있을 때 차분을 하여 제거 해준다.

zt = c(1,3,5,7,8,10,13,15,17)

diff(zt)

[1] 2 2 2 1 2 3 3 1

시계열이 있은데 우상향 하는 트렌드가 있을 때 차분을 진행하여 정상시계열로 바뀐다. 정상시계열로 바뀌게 되면 ARMA 모형으로 fiitting 을 진행하면 된다.

분산의 안정화(Variance Stabilizing)

멱변환(box-cox) 하게 되면 분산이 보다 안정화 된다

데이터를 변환하려는 이유는 기존 데이터가 트렌드가 있을 때 적절하게 변환을 해주면 분산이 일정하게 변화는 이유가 있다.

ARMA (p,q) 의 모델 선택

ACF,PACF를 확인하여 모델을 선택한다.

ACF 는 MA 차수(q)를 선택할 때 이용한다.

PACF 는 AR 차수(p)를 선택할 때 이용한다.

편자기상관계수는 $z_{t}$와 $z_{t-k}$간의 OLS 에 의한 회귀계수와 동일하게 된다.

AR(p)의 경우 p+1 차수 부터 PACF는 절단된다.

ARIMA 차수를 알기 위해 ACF 와 PACF 판독방법

시계열 시도표가 선형추세를 가지면 1차 차분, 2차 추세를 가지면 2차 차분 수행

차분차수는 낮은 차수부터 높은 차수로 진행된다.

ACF 가 지수적 감소나 절단의 형태가 아니면 비정상시계열임

ACF가 10차이상의 양의 자기상관계수를 가지면 고차차분 수행

ACF의 1차 자기상관이 0보다 작거나 같으면 고차차분이 필요

ACF의 시차 1의 자기상관이 -0.5 보다 작으면 과대차분

모형추정의 단계

CLS

처음 몇 개의 관측값을 조건화 하여 잔차제곱합을 최소화 하는 방법

계산이 간다하지만 자료 생략에 따른 비효율문제 발생

ULS

조건없이 잔차제곱을 최소화 하는 방법

ML

정규분포와 같은 분포 조건하에 우도 함수를 최대화하는 모수를 찾는 방법

예제)

추정값이 음수로 나왔지만 아래와 같이 MA과정은 음수로 했기 때문에 해석 할 땐 계수에 음수를 곱해야 한다.

참고자료 : Forecasting: Principles and Practice

 

답글 남기기