컴퓨터공학/통계학

이산확률분포 #2 - 선형변환과 독립관측

루키~ 2013. 2. 19. 08:32

지난번에 이산확률분포에 대한 개념과 기대치, 분산을 구하는 방법에 대해서 정리해 봤습니다. 

이어서 이산확률분포에서 사용할 수 있는 선형변환과 독립관측에 대해 살펴보기로 하겠습니다. 


선형변환

기대치를 구할 때 슬롯머신을 예로 들었는데요. 

만약 슬롯머신이 게임당 1불에서 2불로 오르고. 당첨금도 5배가 올랐다고 생각해 보죠.. 

이 경우, 기대치를 구하기 위해서는 각 수익에 대한 확률분포를 만들고 다음 공식을 사용하면 됩니다. 



혹시 처음본다고 느끼시는 분은 이산확률분포#1 - 기대 수준을 관리 글을 다시 읽어 보시기 바랍니다. ^^

X를 Y로만 바꾼 겁니다. ㅠㅠ


그런데 우리는 이미 기존의 수익 X와 기대치 E(X), 그리고 분산 Var(X)까지 값을 알고 있습니다. 

처음부터 하나씩 계산하지 않고 이런 정보를 활용해서 구할 수는 없을까요?

먼저 기존 수익 X와 새로운 수익 Y에 대한 수식부터 만들어 보겠습니다. 



M을 원래 당첨금이라고 할 때, 위와 같은 식을 만들 수 있을 겁니다. 

M을 기준으로 정리해 보면 최종적으로 X와 Y의 관계는 다음과 같이 나옵니다. 



이전 수익 X와 새로운 수익 Y와는 분명 관계가 있는데 이를 기대치와 분산에 적용하면 어떻게 될까요?

일반화한 공식 부터 먼저 정리해보도록 하죠. 



분산은 기본적으로 평균에서의 거리를 제곱해서 구하기 때문에 상수 a를 제곱해서 적용하는 듯 합니다. 


그렇다면 이런 선형 변환과 관련된 공식을 왜 알고 있어야 할까요? 

값이 달라질 때마다 새롭게 기대치나 분산을 계산하지 않고 

이미 알고 있는 기존의 값을 이 공식에 대입해서 쉽게 새로운 기대치와 분산을 구할 수 있기 때문입니다. 


독립관측

이번에는 동일한 수익이 기대되는 슬롯머신을 여러번 수행한다고 생각해 보죠. 

과연 이것은 선형변환일까요? 


앞에서 설명한 것처럼 선형변환은 기대하는 수익이 변경되는 것입니다. 

다시 말하면 기대하는 확률이 변경되지는 않은 것이죠. 

그러나 동일한 게임을 여러번 수행한다는 것은 기대하는 수익과 확률이 모두 변한다는 것을 의미합니다. 

즉 E(X1 + X2)가 되는 것이죠. 이것은 분명히 선형변환인 E(2X)와 다른 것입니다. 

이러한 것을 독립관측이라고 합니다. 



위 그림을 살펴보면 2X는 수익이 2배 늘어난 선형변환이고, W는 2번 수행함으로써 수익과 확률이 모두 바뀐 독립관측이 됩니다. 

이를 구하는 식은 다음과 같이 나타낼 수 있습니다. 



만약 X와 Y가 전혀 다른 사건이면서 독립관측이라면 다음과 같이 구할 수도 있습니다. 



확률 변수를 뺄 수도 있다고 하는데요.. 이때는 분산을 주의깊게 보셔야 합니다. 

분산은 평균에서의 거리이므로 빼더라도 거리, 즉 변동성이 증가하므로 더해주어야 합니다. 



분산에서 서로 더한 것을 다시한번 생각하면서 살펴보시기 바랍니다. 


선형변환 vs. 독립관측

약간 혼란스러울테니 한번 선형변환과 독립관측을 비교해 보도록 하죠. 

다음은 Head First Statistics 책에 나와 있는 예제인데요. 각 항목이 선형 변환인지 독립관측인지 생각해 보시기 바랍니다. 

답은 맨 아래에 올려 놨습니다. 


  1. 특대컵에 들어있는 커피의 양. X는 보통 크기의 컵에 들어 있는 커피의 양.
  2. 매일 추가적으로 커피 마시기. X는 컵 하나에 들어있는 커피의 양.
  3. 10개의 로또 복권을 샀을 때의 순수익. X는 1개의 로또 복권을 샀을 때의 순수익.
  4. 로또 복권 값이 상승한 다음에 복권 한장이 갖는 순수익. X는 1장의 복권을 샀을 때의 순수익. 
  5. 아침에 먹을 계란을 낳게 하기 위한 암탉을 추가로 구입하기. X는 암탉 한 마리가 한 주 동안 낳는 계란의 수. 


이제 마지막으로 수식을 정리해 보겠습니다. 



선형변환과 독립관측의 구분과 관련한 답은 다음과 같습니다.

1번과 4번이 선형변환이고 2, 3, 5번이 독립관측에 해당합니다.