기초통계 – 수치형 자료 분석

1. 자료의 수치화

시각화를 통한 자료의 특성 파악의 한계로 수치화 필요

  • 범주형 자료 특징 수치화
    • 단변량 : 관측 값의 수를 세는 빈도 분석
    • 다변량 : 명목형 변수 사이의 교차 빈도분석
  • 수치형 자료 특징 수치화
    • 단변량
      • 중심(center)
      • 변동(variability)
      • 형태(shape)
      • 분위수(quantile)
    • 다변량
      • 두 변수 사이의 선형관계 파악

2. 수치형 자료 단변량 분석(용어)

  • 모수(parameter) : 모집단의 특징을 수치화
  • 통계량(statistic) : 표본의 특징을 수치화 하는 측도(measure)
    • 요약 통계량(summary statistic)
      • 중심(center) : 관측값들의 중심은 어디인가?
        • 평균(mean), 중앙값(median), 최빈값(mode)등
      • 변동(variability) : 자료의 퍼짐은 어느 정도 인가?
        • 분산(variance), 표준편차(standard deviation), 변동계수(coefficient of variation)등
      • 형태(shape) : 관측값들의 분포가 대칭인가?
        • 왜도(skewness), 첨도(kurtosis)
    • 분위수(quantile) : 자료의 크기 순서에 따른 위치값
      • 사분위수(quartile), 십분위수(decile), 백분위수(percentile)

3. 수치형 자료 단변량 분석(요약통계량) – 중심, 변동, 형태

  • 중심(center) : 중심을 측정하는 측도

  • 변동(variability) : 자료가 중심에서 퍼져 있는 정도를 계산하는 측도
    • 범위, 표본 분산, 표본 표준편차, 변동계수, 평균절대편차

  • 형태(shape) : 자료 분포의 형태를 계산하는 측도

4. 모수와 통계량

  • 모집단
    • 실험(조사)를 통해 정보를 얻고자 하는 관심 대상의 전체 집합을 의미
    • 모수(parameter) : 모집단의 특징을 수치화 – 일반적으로 그리스 문자 표현
    • 평균, 분산, 표준편차
  • 표본집단
    • 실험(조사)를 통해 정보를 얻고자 하는 관심 대상의 전체집합의 일부를 의미
    • 통계량(statustic) : 표본의 특징을 수치화 하는 측도 – 일반적으로 알파벳으로 표현
    • 표본평균, 표본분산, 표본 표준편차
  • 모수랑 통계량의 차이
    • 모수는 일반적으로 모르지만 고정된 값(상수)이며, 추론 통계를 이용하여 추정
    • 통계량은 표본을 통해 계산하고, 표본에 따라 변하는 값(변수)
    • 모집단의 특징을 계산하는 식과 표본의 특징을 계산하는 식이 같지는 않음

5. 수치형 자료 단변량 분석(분위수)

  • 분위수 : 자료의 크기 순서에 따른 위치값
  • 분위수 사용 용도
    • 자료의 형태가 정규분포를 벗어나는 경우 잦음
    • 자료의 퍼짐(산포)가 매우 클 경우
    • 상하위 부분에서 극단적인 치우침이 있을 때
    • 극단값이 중요한 의미를 지니는 경우
  • 분위수의 종류
    • 사분위수
    • 십분위수
    • 백분위수

6. 수치형 자료 다변량 분석

  • 두 변수 사이의 선형관계를 파악
    • 공분산 :  비율척도로 측정된 두 변수 사이의 선형성을 나타내는 측도

    • 피어슨 상관계수 : 비율척도로 측정한 두 변수 사이의 상대적 선형성을 계산하는 측도

    • 스피어만 순위 상관계수 : 서열 척도로 측정한 2개 변수 간의 연관성을 분석하는 측도

    • 캔달 순위 상관계수 : 서열 척도로 측정한 2개 변수 간의 연관성을 분석하는 측도

11 Replies to “기초통계 – 수치형 자료 분석”

답글 남기기

이메일 주소를 발행하지 않을 것입니다.