<가설검정>

다양한 데이터 원천을 통해 표본 데이터를 수집하는 이유 중의 하나는 표본을 통해 전체 모집단의 특성을 유추해보는 데 있다. 추론통계는 주어진 데이터의 표본 특성으로부터 수학적 확률이론을 토대로 그 데이터가 속해 있을 것으로 예상되는 전체 모집단의 특성을 추론한다.
가설검정이란 표본 데이터를 기반으로 모집단에 새로운 주장의 옮고 그름을 추론하는 과정이다.
즉 어떤 가설을 세우고 그 가설이 사실일 가능성과 사실이 아닐 가능성을 비교해서 의사결정을 하는 것이다. 가능성은 확률로 표현되고 확률을 계산하기 위해서는 확률분포가 필요하다.
결국 추정량의 확률분포를 가정하거나 근사시키는 방법으로 구간추정과 동일한 아이디어, 동일한 결과를 모여준다.

1. 가설검정

모집단에 대한 새로운 주장을 대립가설(alternative hypothesis) 라 하고, 기존의 주장을 귀무가설(null hypothesis) 라고 한다. 귀무가설은 일반적인 사실로 받아들여지는 기존의 주장(즉 기존과 다를 바 없다는 주장)을 말하며, 대립가설은 귀무가설이 사실이 아니라는 새로운 주장(즉 기존과 다르다는 주장)을 말한다.

일반적으로 새로운 주장은 분명하게 입증되지 않으면 받아들여지기가 쉽지 않다. 따라서 대립가설을 새로운 사실로 받아들이기 위해서는 기존의 주장이 명백하게 잘못되었음을 입증해야 한다.
이러한 입증과정을 가설검정이라고 한다.

가설 검정은 귀무가설이 사실이라는 가정하에 수행되고 좀처럼 나타나기 어려운 극단적이고 예외적인 값이 나올 경우 귀무가설을 기각하고 대립가설을 채택하게 된다.

2. 가설검정 절차

  • 표본으로 부터 검정하고자 하는 검정통계량을(test statistic) 을 계산한다.
    검정통계량은 표본평균처럼 간단한 것일 수도 있고, 이보다는 좀 더 복잡한 방식으로 계산된 값일 수 있다. 검정통계량이 어떻게 계산되든 통계적 검정을 위해서 그 통계량의 분포를 알아야 한다.
    예를들어 표본평균이 검정통계량이라면 표본평균분포를 알아야 하는데, 표본평균의 분포는 중심극한정리(central limit theorem)에 의해 정규분포(normal distrubution)을 따른다.
  • 검정통계량과 그 분포로 부터 p-value 을 계산할 수 있다.
    p-value 는 귀무가설이 사실이라는 가정하에서 관측한 통계량과 같거나 그보다 더 극단적인 값이 발생할 확률을 의미한다. p-value유의확률(significance probability)이라고 한다.
  • p-value 값이 매우 작으면 귀무가설이 사실이 아니라는 강력한 증거로 받아들여지게 되고 귀무가설을 기각한다. 반면에 p-value값이 그다지 작지 않다면 귀무가설을 기각할만한 충분한 증거가 없다고 간주하여 귀무가설을 기각하지 못한다.
    p-value 가 매우 작다는 것은 귀무가설이 사실인 경우 표본으로부터 산출한 통계량을 관측할 가능성이 낮다는 것을 의미한다.
    p-value 가 크다는 것은 표본으로부터 관측한 통계량이 귀무가설이 사실이 아니라는 가장하에서 흔하게 발생한다는 것을 의미하므로 귀무가설이 사실이 아니라고 할 만한 충분한 증거가 되지 못한다고 판단한다.

기존의 주장이 옳다는 가정하에서 표본으로부터 관측된 결과(즉 계산된 통계량)가 나타날 가능성이 5% 미만 또는 1% 미만이 되면 기존의 주장하에서는 이러한 관측 결과가 발생할 가능성이 매우 낮다고 판단한다.이럴 경우 관측결과는 기존의 주장과 다르다고 할 수 있으며(귀무가설 기각) 이를 통계적으로 유의하다(statistically significant)라고 표현한다. 이때 판단의 기준으로 사용하는 5% 또는 1% 의 확률을 유의수준(significance level)이라고 한다.

관측된 여러 평균이나 분산 사이의 차이가 모집단에도 있다고 해도 될지의 여부를 판정한다.
비교할 통계량의 종류에 따라 여러 검정이 있다.

3. 검정의 종류

특정 값과 표본평균의 검정
카탈로그연비 <– 비교 –> 사용자가 계측한 실제 연비
카탈로그에 있는 연비와 사용자가 계측한 실제 연비에 차이가 있을까?

특정 비율과 표본비율 검정
목표 지지율 <– 비교 –> 설문조사에서 나타난 지지율
지지율 30%이하로 내려가면 내각을 해산하고 싶은데, 설문조사에서는 지지율이 20%였다. 과연 해산을 해야할까?

특정 분산과 표본분산의 검정
허용할 수  있는 내용량 차이 <– 비교 –> 어느 제조 라인의 내용량 차이
어느 생산라인에서 제조된 과자 한봉지의 용량이 허용 기준에 못 미칠까?

무상관 검정
표본상관계수=0.8 <– 비교 –> 모상관계수=0
운동량과 몸무게 사이에 음의 상관관계가 있을까?

평균차이 검정
한반의 남자평균 <– 비교 –> 한반의 여자 평균
남학생과 여학생 성적차이가 있는가?

등분산 검정
공장A의 나사 차이 <– 비교 –> 공장 B의 나사 차이
공장 A에서 제조된 나사와 공장 B에서 제조된 나사의 길이는 차이가 있을까?

비율차이 검정
A라인의 수율 <– 비교 –> B라인의 수율
A라인에서 제조된 액정 패널과 B라인에서 제조된 액정 패널은 수율에 차이가 있을까?

4. 오류

가설을 기각하고 채택할 때 판단이 틀릴 가능성은 항상 존재한다. 사실은 귀무가설의 주장이 옳은데도 불구하고 선정한 표본이 우연히도 예외적인 것이어서 귀무가설을 기가하는 판단의 오류를 범할 수도 있다. 이러한 오류를 1종오류(type 1 error) 라고 한다. 1종오류를 범할 확률은 $\alpha$ 가 된다.

관측된 유의확률이 커서 귀무가설을 기각하지 못할 때도 판단의 오류 가능성이 존재한다. 귀무가설의 주장이 틀리지만 수집한 표본을 통해 이를 발견하지 못할 수도 있다. 이러한 판단의 오류를 2종오류(type 2 error)라고 하고 $\beta$라고 표현한다.

2종오류와 반대로 귀무가설이 틀릴 때 잘못된 귀무가설을 기각할 수 있는 확률을 검정력(power)이라고 하며 값은 <1-$\beta$> 가 된다.

여러가지 요소들이 검정력에 영향을 미친다. 예를 들면, 유의수준을 크게 하면(다시 말해 귀무가설을 기각하기 쉽게 만들면) 검정력은 증가한다. 또한 표본크기를 증가시키면 검정력은 커진다. 그러나 유의수준을 지나치게 크게 하는 것은 가설검정 결과에 대한 신뢰도를 저하시킬 수 있으며 표본크기 또한 비용상의 문제로 무한정 크게 할 수는 없다. 따라서 연구 모델을 검정할 때 연구자는 이러한 트레이드오프(trade-off) 관계를 고려하여 일반적으로 유의수준과 표본크기를 적정 수준으로 유지하면서 가설검정의 검정력은 가능한 최대화하는 것을 목표로 한다.


    0개의 댓글

    답글 남기기

    이메일 주소는 공개되지 않습니다.