<통계학으로 할수 있는 것>
통계학으로 어떤 것을 할 수 있을까?
기술 통계학)
데이터의 특징(평균과 분산) 과 경향을 파악한다.
많은 데이터를 대상으로 한 통계학
ex : 인구조사 정리, 식사량과 체중의 상관관계 분석, 한 반의 편차값 계산, 편의점 상품 구입 방법
추측통계학)
표본의 정보를 사용하여 모집단의 특성을 추측한다.
불평추정, 신뢰구간 추정, 가설검성
ex : 보험사고 발생횟수의 예측, 선거속보, TV시청률, 신약의 유효성 확인, 사료 첨가제의 결정, 맛 관능시험 분석
실험계획법)
실험을 성공시키기 위한 방법이다.
시간과 공간을 절약하는 방법도 있다.
ex : 실험 순서와 배치, 제품의 품질관리, 피험자(데이터) 수의 결정
중회귀분석, 다변량 분석)
많은 변량을 한 번에 처리하는 방법
복잡한 문제를 단순한 모델로 받아들여, 예측하고 평가한다.
ex : 중고차 매입 평가, 검사결과로 질환 진단, 기업의 경영진단, 입사적성검사, 브랜드의 위치
베이즈 통계학)
지식과 경험, 새로운 데이터를 통합할 수 있다.
서서히 학습시켜 정밀도를 향상시킬수 있다.
ex : 스팸 메일의 분석, 기계변역, 영상해성, 웹 액서스 로그 분석
<1장 기술통계학>
- 여러가지 평균
- 산술평균
$x = (x_{1} + x_{2} + ….. + x_{n}) \div n$
ex) 1년분의 전기 요금이 데이터를 통해 한달 평균 전기요금 구하기 - 기하평균
$x = \sqrt[n]{x_{1} \times x_{2} \times . . . \times x_{n}}$
ex) 연 성장륭이나 전년 대비 같은 수치의 평균을 구하는데 적합하다. - 조화평균
$x = \frac{n}{\frac{1}{x_{1}} + \frac{1}{x_{2}} + . . . + \frac{1}{x_{n}}}$
ex) 일정한 거리를 이동할 때, 평균속도를 구하는 데 이용한다.
- 산술평균
- 데이터의 분산(분위수와 분산)
- 분위수
– n개의 데이터를 작은 수부터 큰 수의 순으로 늘어놓고, 그것을 k등분 했을때, 그 경계가 된 수치를 분위수라고 한다.
– 자주 사용되는 것은 사분위수(k=4)이다. 수치가 작은 쪽부터 제1사분위수, 제2사분위수, 제3사분위수라고한다. 제2사분위수는 전체의 중앙에 위치하기 때문에 중앙값이라고 한다. - 사분위 범위
제3사분위수와 제1사분위수의 차를 말한다. 데이터가 중앙값 주위에 집중할수록 사분위범위는 작아진다. - 편차
데이터의 값과 평균값의 차를 말한다. 편차(절대값)가 큰 데이터가 많으면 분산의 크기가 큰 데이터라고 한다.
$편차(d_{i}) = 관측값(x_{i}) – 평균값(\overline{x})$ - 분산
편차는 개별 데이터에 대해 계산되지만, 분산은 그것을 하나의 지표로 한 것이다.
$분산 s^{2} = {(x_{1}-\overline{x})^{2} + (x_{2}-\overline{x})^{2} + . . . + (x_{n}-\overline{x})^{2}} \div n = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}$ - 이상치
데이터의 평균에서 멀리 떨어져 있는 값을 이상치라고 한다.
- 분위수
- 데이터의 분산(변동계수)
- 변동계수
– 두 개의 데이터가 흩어진 정도를 비교하는 경우에 사용한다.
$변동계수(CV) = 표준편차(s) \div 평균(\overline{x})$
ex :
– 12군데의 가게에서 소고기 100g의 가격
256원, 260원, 266원, 269원, 257원, 257원, 266원, 267원, 264원, 266원, 262원, 260원
산술평균 : 162.5원
표준편차 : 4.25원
변동계수 : 0.016
– 12군데의 가게에서 돼지고기 100g의 가격
194원, 195원, 195원, 202원, 196원, 193원, 200원, 192원, 191원, 191원, 195원, 196원
산술평균 : 195.0원
푠준편차 : 3.19
변동계수 : 0.016
표준편차는 소고기가 더 크지만 변동계수는 동일하다. 따라서 흩어진 정도의 차이가 없다는 것을 알 수 있다.
- 변동계수
- 변수의 관련성(상관계수)
판매촉진비와 매출, 기온과 수입, 게임 시간과 성적 등 두 변수 사이에 상정되는 ‘한쪽이 증가하면 다른 쪽도 증가한다’,’한쪽이 증가하면 다른 쪽은 감소한다’와 같은 직선적인 관계를 상관이라고 한다.- 피어슨의 적률상관계수
상관의 정도를 나타내는 지표로 -1에서 1사의 값을 취한다.
상관계수 $r = \frac{(x_{1}-\overline{x})(y_{1}-\overline{y}) + . . . . + (x_{n}-\overline{x})(y_{n}-\overline{y})}{\sqrt{(x_{1}-\overline{x})^{2}+ . . . . +(x_{n}-\overline{x})^{2}}\sqrt{(y_{1}-\overline{y})^{2}+ . . . . +(y_{n}-\overline{y})^{2}}}$소비자 사과 구입량(x) 귤 구입량(y) x – $\overline{x}$ y – $\overline{y}$ 1 1 2 -2.5 -0.5 2 2 1 -.1.5 -1.5 3 5 4 1.5 1.5 4 6 3 2.5 0.5 평균 3.5 2.5 0 0 $r = \frac{(-2.5)(-0.5)+(-1.5)(-1.5)+(1.5)(1.5)+(2.5)(0,5)}{\sqrt{(-2.5)^{2}+(-1.5)^{2}+(1.5)^{2}+(2.5)^{2}}\sqrt{(-0.5)^{2}+(-1.5)^{2}+(1.5)^{2}+(0.5)^{2}}} = 0.76$
- 피어슨의 적률상관계수
- 변수의 관련성(순위상관)
순뒤 데이터밖에 사용할 수 없는 경우나 두 변수 간의 곡선적인 관계가 상정 되는(산포도가 곡선모양이 되는) 경우는 순위 상관계수를 이용한다.- 스피어만의 순위상관계수
– 순위 데이터에 대해 계산한 피어슨의 확률상관계수가 스피어만의 순위상관계수이다.
– 연속변수일 경우는 먼저 순위 데이터로 변환한다.소비자 x의 순위 y의 순위 x – $\overline{x}$ y – $\overline{y}$ 1 1 2 -1.5 -0.5 2 2 1 -0.5 -1.5 3 3 4 0.5 1.5 4 4 3 1.5 0.5 평균 2.5 2.5 0 0 $p = \frac{(-1.5)(-0.5)+(-0.5)(-1.5)+(0.5)(1.5)+(1.5)(0,5)}{\sqrt{(-1.5)^{2}+(-0.5)^{2}+(0.5)^{2}+(1.5)^{2}}\sqrt{(-0.5)^{2}+(-1.5)^{2}+(1.5)^{2}+(0.5)^{2}}} = 0.60$
- 켄달의 순위상관계수
– x에 대한 순위와 y에 대한 순위가 일치하는지의 여부에 주목해서 상관의 정도를 측정하는 지표
– 소비자 1의 순위 데이터$(x_{1},y_{1})과 소비자 2의 순위데이터(x_{2},y_{2})에 대해$
$x_{1} < x_{2} 이고 y_{1} < y_{2}, 또는 x_{1} > x_{2} 이고 y_{1} > y_{2} 일 때$ -> 순위의 일치
$x_{1} < x_{2} 이고 y_{1} > y_{2}, 또는 x_{1} > x_{2} 이고 y_{1} < y_{2} 일 때$ -> 순위의 불일치소비자 x의 순위 y의 순위 소비자1 소비자2 소비자3 1 1 2 2 2 1 x 3 3 4 o o 4 4 3 o o x 소비자1 소비자2 소비자3 계 o 의 수 2 2 0 4 x 의 수 1 0 1 2 – 켄달의 순위상관계수는 A=o의 수, B=x의 수, n=데이터 쌍의 수로 했을 때, 다음 식으로 구할 수 있다. 같은 순위가 있는 경우는 계산식이 달라진다.
켄달의 순위상관계수 = $\frac{(A-B)}{(n개에서 2개를 골라내는 조합의 수)}$
$= \frac{4-2}{\frac{1}{2}\times 4\times (4-1)} = 0.33$
- 스피어만의 순위상관계수
0개의 댓글