<통계학으로 할수 있는 것>

통계학으로 어떤 것을 할 수 있을까?

기술 통계학)

데이터의 특징(평균과 분산) 과 경향을 파악한다.

많은 데이터를 대상으로 한 통계학

ex : 인구조사 정리, 식사량과 체중의 상관관계 분석, 한 반의 편차값 계산, 편의점 상품 구입 방법

추측통계학)

표본의 정보를 사용하여 모집단의 특성을 추측한다.

불평추정, 신뢰구간 추정, 가설검성

ex : 보험사고 발생횟수의 예측, 선거속보, TV시청률, 신약의 유효성 확인, 사료 첨가제의 결정, 맛 관능시험 분석

실험계획법)

실험을 성공시키기 위한 방법이다.

시간과 공간을 절약하는 방법도 있다.

ex : 실험 순서와 배치, 제품의 품질관리, 피험자(데이터) 수의 결정

중회귀분석, 다변량 분석)

많은 변량을 한 번에 처리하는 방법

복잡한 문제를 단순한 모델로 받아들여, 예측하고 평가한다.

ex : 중고차 매입 평가, 검사결과로 질환 진단, 기업의 경영진단, 입사적성검사, 브랜드의 위치

베이즈 통계학)

지식과 경험, 새로운 데이터를 통합할 수 있다.

서서히 학습시켜 정밀도를 향상시킬수 있다.

ex : 스팸 메일의 분석, 기계변역, 영상해성, 웹 액서스 로그 분석

<1장 기술통계학>

  • 여러가지 평균
    • 산술평균
      $x = (x_{1} + x_{2} + ….. + x_{n}) \div n$
      ex) 1년분의 전기 요금이 데이터를 통해 한달 평균 전기요금 구하기
    • 기하평균
      $x = \sqrt[n]{x_{1} \times x_{2} \times . . . \times x_{n}}$
      ex) 연 성장륭이나 전년 대비 같은 수치의 평균을 구하는데 적합하다.
    • 조화평균
      $x = \frac{n}{\frac{1}{x_{1}} + \frac{1}{x_{2}} + . . . + \frac{1}{x_{n}}}$
      ex) 일정한 거리를 이동할 때, 평균속도를 구하는 데 이용한다.
  • 데이터의 분산(분위수와 분산)
    • 분위수
      – n개의 데이터를 작은 수부터 큰 수의 순으로 늘어놓고, 그것을 k등분 했을때, 그 경계가 된 수치를 분위수라고 한다.
      – 자주 사용되는 것은 사분위수(k=4)이다. 수치가 작은 쪽부터 제1사분위수, 제2사분위수, 제3사분위수라고한다. 제2사분위수는 전체의 중앙에 위치하기 때문에 중앙값이라고 한다.
    • 사분위 범위
      제3사분위수와 제1사분위수의 차를 말한다. 데이터가 중앙값 주위에 집중할수록 사분위범위는 작아진다.
    • 편차
      데이터의 값과 평균값의 차를 말한다. 편차(절대값)가 큰 데이터가 많으면 분산의 크기가 큰 데이터라고 한다.
      $편차(d_{i}) = 관측값(x_{i}) – 평균값(\overline{x})$
    • 분산
      편차는 개별 데이터에 대해 계산되지만, 분산은 그것을 하나의 지표로 한 것이다.
      $분산 s^{2} = {(x_{1}-\overline{x})^{2} + (x_{2}-\overline{x})^{2} + . . . + (x_{n}-\overline{x})^{2}} \div n = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}$
    • 이상치
      데이터의 평균에서 멀리 떨어져 있는 값을 이상치라고 한다.
  • 데이터의 분산(변동계수)
    • 변동계수
      – 두 개의 데이터가 흩어진 정도를 비교하는 경우에 사용한다.
      $변동계수(CV) = 표준편차(s) \div 평균(\overline{x})$
      ex :
      – 12군데의 가게에서 소고기 100g의 가격
      256원, 260원, 266원, 269원, 257원, 257원, 266원, 267원, 264원, 266원, 262원, 260원
      산술평균 : 162.5원
      표준편차 : 4.25원
      변동계수 : 0.016
      – 12군데의 가게에서 돼지고기 100g의 가격
      194원, 195원, 195원, 202원, 196원, 193원, 200원, 192원, 191원, 191원, 195원, 196원
      산술평균 : 195.0원
      푠준편차 : 3.19
      변동계수 : 0.016
      표준편차는 소고기가 더 크지만 변동계수는 동일하다. 따라서 흩어진 정도의 차이가 없다는 것을 알 수 있다.
  • 변수의 관련성(상관계수)
    판매촉진비와 매출, 기온과 수입, 게임 시간과 성적 등 두 변수 사이에 상정되는 ‘한쪽이 증가하면 다른 쪽도 증가한다’,’한쪽이 증가하면 다른 쪽은 감소한다’와 같은 직선적인 관계를 상관이라고 한다.

    • 피어슨의 적률상관계수
      상관의 정도를 나타내는 지표로 -1에서 1사의 값을 취한다.
      상관계수 $r = \frac{(x_{1}-\overline{x})(y_{1}-\overline{y}) + . . . . + (x_{n}-\overline{x})(y_{n}-\overline{y})}{\sqrt{(x_{1}-\overline{x})^{2}+ . . . . +(x_{n}-\overline{x})^{2}}\sqrt{(y_{1}-\overline{y})^{2}+ . . . . +(y_{n}-\overline{y})^{2}}}$

      소비자 사과 구입량(x) 귤 구입량(y) x – $\overline{x}$ y – $\overline{y}$
      1 1 2 -2.5 -0.5
      2 2 1 -.1.5 -1.5
      3 5 4 1.5 1.5
      4 6 3 2.5 0.5
      평균 3.5 2.5 0 0

      $r = \frac{(-2.5)(-0.5)+(-1.5)(-1.5)+(1.5)(1.5)+(2.5)(0,5)}{\sqrt{(-2.5)^{2}+(-1.5)^{2}+(1.5)^{2}+(2.5)^{2}}\sqrt{(-0.5)^{2}+(-1.5)^{2}+(1.5)^{2}+(0.5)^{2}}} = 0.76$

  • 변수의 관련성(순위상관)
    순뒤 데이터밖에 사용할 수 없는 경우나 두 변수 간의 곡선적인 관계가 상정 되는(산포도가 곡선모양이 되는) 경우는 순위 상관계수를 이용한다.

    • 스피어만의 순위상관계수
      – 순위 데이터에 대해 계산한 피어슨의 확률상관계수가 스피어만의 순위상관계수이다.
      – 연속변수일 경우는 먼저 순위 데이터로 변환한다.

      소비자 x의 순위 y의 순위 x – $\overline{x}$ y – $\overline{y}$
      1 1 2 -1.5 -0.5
      2 2 1 -0.5 -1.5
      3 3 4 0.5 1.5
      4 4 3 1.5 0.5
      평균 2.5 2.5 0 0

      $p = \frac{(-1.5)(-0.5)+(-0.5)(-1.5)+(0.5)(1.5)+(1.5)(0,5)}{\sqrt{(-1.5)^{2}+(-0.5)^{2}+(0.5)^{2}+(1.5)^{2}}\sqrt{(-0.5)^{2}+(-1.5)^{2}+(1.5)^{2}+(0.5)^{2}}} = 0.60$

    • 켄달의 순위상관계수
      – x에 대한 순위와 y에 대한 순위가 일치하는지의 여부에 주목해서 상관의 정도를 측정하는 지표
      – 소비자 1의 순위 데이터$(x_{1},y_{1})과 소비자 2의 순위데이터(x_{2},y_{2})에 대해$
      $x_{1} < x_{2} 이고 y_{1} < y_{2}, 또는 x_{1} > x_{2} 이고 y_{1} > y_{2} 일 때$ -> 순위의 일치
      $x_{1} < x_{2} 이고 y_{1} > y_{2}, 또는 x_{1} > x_{2} 이고 y_{1} < y_{2} 일 때$ -> 순위의 불일치

      소비자 x의 순위 y의 순위 소비자1 소비자2 소비자3
      1 1 2
      2 2 1 x
      3 3 4 o o
      4 4 3 o o x
      소비자1 소비자2 소비자3
      o 의 수 2 2 0 4
      x 의 수 1 0 1 2

      – 켄달의 순위상관계수는 A=o의 수, B=x의 수, n=데이터 쌍의 수로 했을 때, 다음 식으로 구할 수 있다. 같은 순위가 있는 경우는 계산식이 달라진다.
      켄달의 순위상관계수 = $\frac{(A-B)}{(n개에서 2개를 골라내는 조합의 수)}$
      $= \frac{4-2}{\frac{1}{2}\times 4\times (4-1)} = 0.33$

 

 


0개의 댓글

답글 남기기

이메일 주소를 발행하지 않을 것입니다.