확률분포

위키피디아에 따르면 확률분포를 다음과 같이 정의하고 있습니다.

확률분포(probability distribution)는 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.

주사위를 던질거나 슬롯머신을 할 때 나올 수 있는 모든 가능성의 확률을 모아놓은 집합이 확률분포라고 할 수 있습니다.

다음 그림을 보면 주사위 두개를 던졌을 때 나올 수 있는 두 주사위의 합을 확률분포로 나타내고 있네요.

그러면 이를 수식으로는 어떻게 표현할까요?

정의를 다시 보면 "확률변수가 특정한 값을 가질 확률..." 이라고 되어 있습니다.

확률변수는 일반적으로 X나 Y와 같이 대문자로 표기합니다.

그리고 변수가 가질 수 있는 특정한 값은 x나 y처럼 소문자로 나타내죠..

변수 X가 특정한 값 x를 가질 확률을 위와 같이 P(X=x)라고 표기하게 됩니다.

만약 위와 같이 특정한 값 x에 대한 모든 가능성을 나타낸 것이 바로 확률분포라고 할 수 있습니다.

확률분포는 일반적으로 이산확률분포와 연속확률분포로 나누어지는데요.

주사위 예제나 위의 표와 같이 변수가 정확한 값을 가지고 있으면 이산확률분포라 하구요.

정규분포와 같이 연속적으로 나타나면 연속확률분포라고 합니다.

앞으로 정리할 내용들은 이산확률분포에 대해서 다룰 것이고, 연속확률분포는 적분을 통해서 유사한 것들을 계산할 수 있습니다.

기대치와 분산

확률분포를 알아야 하는 이유가 무엇일까요?

예를 들어, 슬롯머신을 할 때 한번에 딸 확률만 계산할 때는 확률분포가 큰 의미가 없어 보입니다.

그러나 장기적으로 슬롯머신을 할 때 얼마를 따거나 잃을 수 있는지 알고 싶다면, 기존의 확률가지고는 안되겠죠.

이러한 것을 기대치(expected value)라고 하는데요. 확률분포를 위한 것이기는 하지만 평균값과도 유사하다고 합니다.

E(X)를 X의 기대치라고 하구요.

기대치를 구하기 위해서 각 값(x)을 그것의 확률(P(X=x))로 곱하고 그 결과를 모두 더하는 것입니다.

그럼 위에 있는 확률분포 표를 기반으로 E(X)를 한번 계산해 보시기 바랍니다.

기대치는 -0.77이 나오게 될 것입니다.

기대치는 평균적인 값을 말해주지만 값들이 분포되어 있는 방식을 알려주지는 않습니다.

그래서 기대치가 평균값과 유사하다면, 평균에서 정리했던 분포되는 방식을 나타내는 분산을 사용할 수도 있어야 할 것입니다.

평균에서 분산을 어떻게 구했는지 기억을 되살려볼까요?

바로 평균에서의 거리를 구하고 그 값을 제곱해서 양수로 만든 다음 평균을 구했었죠.

유사하게 기대치와의 거리를 구하고 제곱해서 다음과 같이 나타냅니다.

여기에서 u는 E(X), 즉 기대치를 나타내는 다른 표현입니다.

기대치와의 거리를 제곱한 값에 대한 기대치를 구하기 위해서 다음과 같은 수식을 이용합니다.

E(X)의 값을 구하는 것과 비교해서 보세요.

확률에 x를 곱하는 대신 (x-u)2을 곱한 형태가 됩니다.

표준편차를 구하려면 당연히 제곱근을 씌우면 되겠죠..

그렇다면 분산이나 표준편차가 낮은 것과 높은 것은 어떤 차이가 있을까요?

낮을수록 게임당 기대할 수 있는 값이 기대치에 가까워지므로 보다 안정적이라고 할 수 있겠죠.

높다면 기대할 수 있는 금액의 변화가 커서 상대적으로 예측하기 어렵다고 보면 됩니다.

기대치에 대한 선형변환과 독립관측에 대해서는 한번 더 정리해 보기로 하죠