기초통계 – 탐색적 자료분석

1. 탐색적 자료 분석

  • 시각화 : 도표 또는 그래프
    • 수리적인 방법을 이용하지 않고 자료에 관한 특성파악
    • 점 그림, 선 도표, 막대 도표, 히스토그램, 산포도 등
  • 수치요약 : 통계량 또는 표
    • 수리적인 방법을 이용하여 자료에 관한 특성 파악
    • 빈도(도수)분포표, 평균, 분산, 왜도, 첨도, 피어슨 상관계수 등

2. 탐색적 자료분석의 시각화 방법

3. 탐색적 자료 분석 (단변량 범주형 자료 시각화)

  • 막대 도표 : 범주형 척도로 측정된 자료를 단순 셈, 혹은 비율을 막대를 통해 시각화
  • 파레토 도표 : 막대 도표를 빈도의 따라 내림차순으로 정렬한 막대 도표
  • 원도표 : 범부형 척도로 측정된 자료를 산순 셈이나 비율을 원으로 표현한 도표
    • 원의 조각의 소수여야 하고, 각 조각에 해당하는 자료 값이나 비율을 표기해야 한다.
    • 정확한 면적을 가늠하기 어렵기 때문에 대략적인 자료의 특징을 파악하기 위한 용도

4. 탐색적 자료 분석 (다변량 범주형 자료 시각화)

  • 모자이크 도표 : 두가지 이상의 범주형 변수로 측정된 자료를 단순 셈 혹은 비율을 막대로 표현한 도표
    • 두 범주형 변수 사이의 연관성을 파악하는 용으로 활용

5. 탐색적 자료 분석 (단변량 수치형 자료 시각화)

  • 히스토그램 : 빈도분포표(도수분포표)를 막대로 표현한 그림
  • 빈도분포표 : n 개의 관측값을 k개의 걔급(bin)으로 분류한 표
  • 점 그림 : 해당하는 관측값을 직선상에 표기하는 방법, 하나 이상의 값이 동일하거나 매우 비슷하면 점을 세로로 쌓는 방식의 그림

  • 선 도표 : 시계열 표시를 하거나 트랜드를 나타내기 위해 사용
    • 시계열 자료의 경우 각 시점은 동일한 간격이여야 함
    • 선 도표는 여러 변수를 하나의 그림에 나타낼 수 있다.
  • 상자 그림 혹은 상자수염그림 : 다섯숫자요약의 정보를 담고 있는 그림

6. 탐색적 자료분석(다변량 수치형 자료 시각화)

  • 산포도
    • 두 수치형 변수를 x축과 y축으로 투영
    • 두 수치형 변수 사이의 연관성과 관계를 파악하는 첫 단계
    • 산점도는 경향성을 파악하는데 도움을 주지만 비교가 어려움

  • 다중 점 그림 : 점 그림을 세로로 쌓아 두 개 이상의 그룹과 비교할 때 사용

답글 남기기

이메일 주소를 발행하지 않을 것입니다.