기초통계 – 확률과 확률분포

1. 기초 확률론

  • 확률(probability)이 필요한 이유
    • 대부분의 통계분석은 표본을 분석
    • 표본은 모집단에서 나온 일부분
    • 표본조사는 자동적으로 확률 개념을 포함
  • 확률 : 경험 혹은 실험의 결과로 특정한 사건이 발생할 가능성
    • 주관적 확률 :  경험과 주관의 의한 판단
    • 객관적 확률
      • 고전적 확률(사전확률):사건의 결과를 객관적으로 미리 판단 할 수  있는 경우
      • 상대빈ㄷ 확률(사후확률):같은 실험을 수 없이 반복하여 특정 사건의 상대적 발생 가능성

  • 실험과 확률
    • 확률실험(random experiment)과 표본 공간(sample space)
      • 확률실험 : 어떤 행위의 결과를 관찰하고 측정하여 그 결과에 대해 구체적인 값을 부여(기록)
      • 표본점 : 한 번의 확률 실험(실험 값)
      • 표본공간 : 확률실험 결과로 발생 할 수 있는 모든 가능한 결과(표본점)의 집합

    • 표본공간 = (N n), N = 모집단의 크기, n = 표본의 크기
  • 실험과 확률
    • 조사를 위하여 모집단으로부터 표본을 추출하는 것도 일정의 실험
    • 표본(자료)은 모집단으로부터 추출된 단 하나의 표본점(자료)
    • 특정한 표본점이 나타날 확률 = 1/표본공간
  • 확률의 공리
    • 확률실험의 모든 사건의 집합이 발생할 확률을 1
    • 확률실험을 통해 사건 A가 발생할 확률은 1보다 작거나 같은 음이 아닌 실수  (0 <= P(A) <= 1)
    • 사건 A1, A2, …, Ak가 상호 배타적인 사건이면 합의 법칙을 만족함

2. 확률변수

  • 확률 실험의 표본 공간에서 각 결과에 숫자 값을 할당하는 함수 또는 규칙 (A functin or rule that assifns a numerical value to each outcome in the sample space of a random experiment)
  • 표본공간상의 모든 표본점에 수치를 부여
    • 2개의 동전을 던지는 실험
    • 표본공간 : [(H,H),(H,T),(T,H),(T,T)]
    • 확률(사전확률) : P=[1/4,1/4,1/4,1/4]
    • 확률변수 X는 동전의 앞면을 1, 뒷면을 0으로하여 2개의 동전을 던져 얻은 결과의 합
    • 확률변수(X)는 확률과 연동하여 특정한 값(x)을 갖게 되는 변수를 말함
  • 하나의 실험 결과로 수많은 확률변수를 만들 수 있음
    • 하나의 주사위를 던져 나온 눈을 기록하는 실험[표본공간={1,2,3,4,5,6}]
    • 확률변수 X는 주사위를 던져 주사위 눈이 4이하면 0, 5이상이면 1로 하는 규칙
    • 확률변수 Y는 주사위를 던져 눈이 홀수이면 1, 짝수이면 0으로 하는 규칙
    • 확률변수 Z는 주사위를 던져 눈이 1이면 1, 소수이면 2, 그 외는 3으로 하는 규칙
  • 확률변수는 이산확률변수와 연속확률변수로 나뉨
    • 이산확률변수 : 각 실현값을 자연수(정수)로 일대일 대응이 가능한 경우(가산집합)
    • 연속확률변수 : 각 실현값을 자연수(정수)로 일대일 대응이 불가능한 경우(비가산집합)

3. 확률 분포

  • 확률 변수가 가질 수 있는 모든 값과 그 확률을 나타낸 것
  • 수식, 빈도분포표, 그래프를 통해 표현

4. 이산확률 분포

  • 이산확률 변수 X 의 각 값(x)에 확률을 대응
  • 확률분포는 다음과 같이 정의된 확률법칙을 반드시 따라야 한다.
    • 이산확률변수 X가 k개의 실연값(x1,x2,….xk)를 가지면
      • 0 <= P(X=xi) <= 1 (이산확률변수 X의 실현값 xi에 대한 확률)
      • ∑P(X=xi) = 1 (이산확률변수 X의 모든 x에 대한 확률 합)
  • 이산확률 분포는 수학에서 함수의 규칙을 따름
  • 이산확률분포는 빈도분포표, 그래프, 수식을 통해 표현가능
  • 확률변수와 확률분포는 모수(parameter)를 통해 표현
    • 확률분포의 특징(가령, 평균과 분산)은 확률과정의 모수에 의존

5. 이산 확률분포함수

  • 확률 질량 함수
    • 정의 : 특정값에 대한 확률을 나타내는 함수
    • 표기 : P(X = xi) 또는 Px(xi)
  • 누적확률분포함수
    • 정의 : 주어진 확률변수가 특정 값보다 작거나 같은 확률을 나타내는 함수
    • 표기 : P(X <= x) 또는 Fx(x)
  • 기대값
    • 정의 : 확률변수의 특정 값과 그 확률을 곱한 값을 전체 사건에 대해 합한 값
    • 표기 : $E(X) = (\mu = \sum _{i = 1}^{k} {x}_{i}\ast P(X = {x}_{i}))$
    • 기대값은 확률분포의 중심 경향성을 측정
  • 분산
    • 정의 : 평균에 흩어져 있는 정도의 가중 평균
    • 표기 : $Var(X) = ({\sigma}^{2} = \sum_{i=1}^{k}{[{x}_{i} – mu]}^{2}\ast P( X = {x}_{i}))$

One Reply to “기초통계 – 확률과 확률분포”

답글 남기기

이메일 주소를 발행하지 않을 것입니다.