기초통계 – 확률과 확률분포
1. 기초 확률론
- 확률(probability)이 필요한 이유
- 대부분의 통계분석은 표본을 분석
- 표본은 모집단에서 나온 일부분
- 표본조사는 자동적으로 확률 개념을 포함
- 확률 : 경험 혹은 실험의 결과로 특정한 사건이 발생할 가능성
- 주관적 확률 : 경험과 주관의 의한 판단
- 객관적 확률
- 고전적 확률(사전확률):사건의 결과를 객관적으로 미리 판단 할 수 있는 경우
- 상대빈ㄷ 확률(사후확률):같은 실험을 수 없이 반복하여 특정 사건의 상대적 발생 가능성
- 실험과 확률
- 확률실험(random experiment)과 표본 공간(sample space)
- 확률실험 : 어떤 행위의 결과를 관찰하고 측정하여 그 결과에 대해 구체적인 값을 부여(기록)
- 표본점 : 한 번의 확률 실험(실험 값)
- 표본공간 : 확률실험 결과로 발생 할 수 있는 모든 가능한 결과(표본점)의 집합
- 확률실험(random experiment)과 표본 공간(sample space)
-
- 표본공간 = (N n), N = 모집단의 크기, n = 표본의 크기
- 실험과 확률
- 조사를 위하여 모집단으로부터 표본을 추출하는 것도 일정의 실험
- 표본(자료)은 모집단으로부터 추출된 단 하나의 표본점(자료)
- 특정한 표본점이 나타날 확률 = 1/표본공간
- 확률의 공리
- 확률실험의 모든 사건의 집합이 발생할 확률을 1
- 확률실험을 통해 사건 A가 발생할 확률은 1보다 작거나 같은 음이 아닌 실수 (0 <= P(A) <= 1)
- 사건 A1, A2, …, Ak가 상호 배타적인 사건이면 합의 법칙을 만족함
2. 확률변수
- 확률 실험의 표본 공간에서 각 결과에 숫자 값을 할당하는 함수 또는 규칙 (A functin or rule that assifns a numerical value to each outcome in the sample space of a random experiment)
- 표본공간상의 모든 표본점에 수치를 부여
- 2개의 동전을 던지는 실험
- 표본공간 : [(H,H),(H,T),(T,H),(T,T)]
- 확률(사전확률) : P=[1/4,1/4,1/4,1/4]
- 확률변수 X는 동전의 앞면을 1, 뒷면을 0으로하여 2개의 동전을 던져 얻은 결과의 합
- 확률변수(X)는 확률과 연동하여 특정한 값(x)을 갖게 되는 변수를 말함
- 하나의 실험 결과로 수많은 확률변수를 만들 수 있음
- 하나의 주사위를 던져 나온 눈을 기록하는 실험[표본공간={1,2,3,4,5,6}]
- 확률변수 X는 주사위를 던져 주사위 눈이 4이하면 0, 5이상이면 1로 하는 규칙
- 확률변수 Y는 주사위를 던져 눈이 홀수이면 1, 짝수이면 0으로 하는 규칙
- 확률변수 Z는 주사위를 던져 눈이 1이면 1, 소수이면 2, 그 외는 3으로 하는 규칙
- 확률변수는 이산확률변수와 연속확률변수로 나뉨
- 이산확률변수 : 각 실현값을 자연수(정수)로 일대일 대응이 가능한 경우(가산집합)
- 연속확률변수 : 각 실현값을 자연수(정수)로 일대일 대응이 불가능한 경우(비가산집합)
3. 확률 분포
- 확률 변수가 가질 수 있는 모든 값과 그 확률을 나타낸 것
- 수식, 빈도분포표, 그래프를 통해 표현
4. 이산확률 분포
- 이산확률 변수 X 의 각 값(x)에 확률을 대응
- 확률분포는 다음과 같이 정의된 확률법칙을 반드시 따라야 한다.
- 이산확률변수 X가 k개의 실연값(x1,x2,….xk)를 가지면
- 0 <= P(X=xi) <= 1 (이산확률변수 X의 실현값 xi에 대한 확률)
- ∑P(X=xi) = 1 (이산확률변수 X의 모든 x에 대한 확률 합)
- 이산확률변수 X가 k개의 실연값(x1,x2,….xk)를 가지면
- 이산확률 분포는 수학에서 함수의 규칙을 따름
- 이산확률분포는 빈도분포표, 그래프, 수식을 통해 표현가능
- 확률변수와 확률분포는 모수(parameter)를 통해 표현
- 확률분포의 특징(가령, 평균과 분산)은 확률과정의 모수에 의존
5. 이산 확률분포함수
- 확률 질량 함수
- 정의 : 특정값에 대한 확률을 나타내는 함수
- 표기 : P(X = xi) 또는 Px(xi)
- 누적확률분포함수
- 정의 : 주어진 확률변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
- 표기 : P(X <= x) 또는 Fx(x)
- 기대값
- 정의 : 확률변수의 특정 값과 그 확률을 곱한 값을 전체 사건에 대해 합한 값
- 표기 : $E(X) = (\mu = \sum _{i = 1}^{k} {x}_{i}\ast P(X = {x}_{i}))$
- 기대값은 확률분포의 중심 경향성을 측정
- 분산
- 정의 : 평균에 흩어져 있는 정도의 가중 평균
- 표기 : $Var(X) = ({\sigma}^{2} = \sum_{i=1}^{k}{[{x}_{i} – mu]}^{2}\ast P( X = {x}_{i}))$
Wonderful, what a website it is! This blog gives useful data to us, keep it up. Maris Gene Grimaldi