분류모형

분류모형

classification 은 독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값을 예측하는 것이다. 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지를 알아내는 문제이다.

1. 분류 모형의 종류

주어진 데이터에 대해 각 카테고리 혹은 클래스가 정답일 조건부 확률을 계산하는 확률적 모형이라고 한다.

확률적 모형

확률적 모형은 조건부확률을 계산하는 방법에 따라 직접 조건부확률을 계산하는 확률적 모형과 베이즈 정리를 사용하여 간접적으로 조건부확률을 구하는 확률적 생성 모형(확률적 판별 모형)으로 나누어진다.

판별함수 모형

주어진 데이터를 카테고리에 따라 서로 다른 영역으로 나누는 경계면(decision boundary)을 찾아낸 다음 이 경계면으로부터 주어진 데이터가 어느 위치에 있는지를 계산하는 판별함수(discriminant function)을 이용하는 모형

분류 모형과 방법론

확률적 생성모형 : LDA/QDA, 나이브 베이지안, 로지스틱 회귀, 의사결정나무

판별함수 모형 : 페셉트론, 서포트벡터머신, 인공신경망

2. 모형

확률적 모형

반응변수 Y 가 K개의 클래스중 하나의 값을 가진다고 했을 때 x에 대한 클래스를 예측한다.

– 입력 x가 주어졌을 때 y가 클래스 k가 될 확률 P(y = k | x)을 계산하고 확률이 가장 큰 클래스를 선택하는 방법이다.

$P_{1} = P(y=1 \mid x)$
…..
$P_{k} = P(y=K \mid x)$ 이고 이중에서 확률이 가장 큰 클래스를 선택 $\hat{y}=argmax_{k}P(y=k\mid x)$

조건부 확률을 계산하는 방법은 생성모형 방법, 판별모형 방법 두가지가 있다.

확률적 생성모형

각 클래스 별 특징 데이터의 확률분포 P(x|y=K)을 추정한 다음 베이즈 정리를 사용하여 P(y=k|x)를 계산하는 방법이다.

$P(y=k|x)=\dfrac{P(x\mid y=k)P(y=k)}{P(x)}$

생성모형에서는 전체 확률의 법칙을 이용하여 특징 데이터 x의 무조건부 확률분포 P(x)를 구할 수 있다.

$P(x) = \sum_{k=1}^{K}P(x\mid y=k)P(y=k)$

따라서 새로운 가상의 특징 데이터를 생성해내거나 특징 데이터만으로도 아웃라이어를 판단할 수 있다.

확률적 판별 모형

조건부확률 P(y|x)를 구하기 위해 우선 likelihood p(x|y)를 구하고 베이즈 정리를 사용하여 조건부확률을 계산한다.

하지만 확률적 판별 모형(probabilistic discriminative model)은 조건부확률 p(y=1|x)이 x에 대한 함수 f(x)로 표시 될 수 있다고 가정하고 그 함수를 직접 찾아내는 방법이다.

P(y=k|x)=f(x)

단 f(x)는 0보다 같거나 크고 1보다 같거나 작다는 조건을 만족해야 한다.

 

답글 남기기