컴퓨터공학/통계학

확률 - 일어날 가능성을 측정하는 방법

루키~ 2013. 1. 21. 08:33

확률(Probability)

확률을 왜 배워야 할까요? 

확률은 어떤 일이 발생할 가능성을 측정함으로써 미래를 예측할 수 있도록 합니다. 

이렇게 어떤 일이 일어날 가능성을 미리 파악함으로써 실제 정보를 바탕으로 의사 결정을 내릴 수 있도록 도와줄 수 있습니다. 


그렇다면 확률은 어떻게 구하게 될까요?

확률은 0과 1사이의 값을 갖게 되는데요. 

A라는 사건이 일어날 확률을 구하는 방식은 다음과 같습니다. 



여기에서 n(S)는 전체 경우의 수이고 n(A)는 사건 A가 일어날 수 있는 경우의 수를 나타냅니다. 


그렇다면 만약 사건 A가 일어나지 않을 확률은 어떻게 구할까요?

이것을 A'라고 표시하고 사건 A에 대한 여사건(complementary event)라고 합니다. 

사건 A가 일어날 확률과 사건 A가 일어나지 않은 확률의 합은 항상 1이 됩니다. 

그러므로 다음 공식을 통해 P(A')를 구할 수 있습니다. 



한가지 기억해야 할 사항은 확률은 어떤 사건이 일어날 가능성에 대해서 이야기 해 주는 것일 뿐 반드시 보장하는 것은 아닙니다. 

로또의 당첨확률이 1/8,145,060에 불과해도 1등이 나오니까요.. 

아무리 일어날 가능성이 낮아도 불가능한 것이 아니라면 일어날 수 있다는 것이죠. 


벤다이어그램(Venn Diagram)

확률을 숫자로만 표시하지 않고 그림으로 나타내는 방법이 몇가지 있습니다. 

아무래도 그림이 보다 직관적이기 때문인데요. 

대표적인 것이 바로 다음과 같은 벤다이어그램이 아닌가 합니다. 

벤다이어그램을 살펴보면 두 사건이 동시에 발생할 수 없는 배반사건과 다음 그림처럼 동시에 발생할 수 있는 교사건을 쉽게 확인할 수 있습니다.



만약 위 그림과 같은 벤다이어그램에서 P(AUB)를 구한다면 어떻게 될까요?

P(A)와 P(B)를 더하면 교집합 부분을 두번 더하게 되므로 교집합을 한번 빼주면 되겠죠. 



그렇다면 다음 수식은 과연 어떤 확률을 나타낼까요? 



그림을 보고서 생각해 보면 사건 A가 발생할 확률인 P(A)를 나타내는 것을 알 수 있을 것입니다. 

이렇게 동일한 확률을 다른 각도에서 바라보는 것이 때로는 도움이 된다고 합니다. 


조건부 확률(Conditional Probabilities)

조건부 확률은 어떤 사건(B)이 발생한 것을 전제로 다른 사건(A)이 일어날 확률을 의미하며 P(A|B)로 표시합니다. 

벤다이어그램을 참고로 생각해 보면, P(A|B)는 B사건이 발생한 것 중에서 A와 B가 동시에 발생한 것의 비율을 구하면 됩니다. 



이것을 약간 변형해서 보면 다음과 같이 생각할 수도 있습니다. 




이러한 조건부 확률을 한번에 살펴보기 위해 다음과 같은 형태의 확률트리를 주로 사용합니다. 



일반적으로 벤다이어그램은 기본적인 확률과 관계를 나타내는데 편리하고, 

확률트리는 조건부 확률을 다룰때 활용한다고 합니다. 


베이즈 정리(Bayes's Theorem)

만약 다음과 같은 확률트리가 있다고 생각해 보죠.. 



여기에는 P(B|A)가 주어져 있습니다. 

그런데 반대로 B 사건이 발생한 이후에 A 사건이 발생하는 조건부 확률, 즉 P(A|B)를 구하려면 어떻게 해야 할까요?

위에서 살펴본 공식은 다음과 같습니다. 



먼저 다음 공식을 활용하면 교집합은 구할 수 있을 겁니다.  

이래서 똑같은 수식을 여러가지 관점에서 바라볼 필요가 있다고 하는 듯 하네요. ^^



그러면 P(B)는 어떻게 구할 수 있을까요? 

이번에는 벤다이어그램에서 부분에서 살펴본 공식을 활용해 보죠.. 



복잡해 보이지만 다 앞에서 설명한 내용입니다.

또 교집합을 구해야 한다면 확률트리에서 다시 구할 수 있겠죠.. 




최종적으로 두 가지를 더하면 P(B)는 다음과 같습니다.



이제 필요한 값을 모두 구했으니 P(A|B)를 구하는 식을 정리할 수 있겠네요. 



이것을 바로 베이즈정리라고 합니다. 

그렇다면 과연 베이즈정리를 실생활에 어떻게 적용할 수 있을까요? 


이메일을 필터링해서 스펨메일을 감지할 때나 유전자 검사로 친부모 확인 등에도 사용한다고 하는데요. 

데이터마이닝에서도 일정한 패턴을 추출해 데이터의 확률 개선이나 인과관계 분석에도 사용한다고 합니다. 

의학 검진에서도 양성반응일때 병에 걸릴 확률같은 것을 계산하는 것도 일종의 베이즈 정리라고 할 수 있겠죠. 


이상으로 확률에 대해서 기본사항 부터 베이즈 정리까지 한번에 정리했습니다. 

공식 자체보다는 공식을 이해하고 실제 필요한 곳에 활용할 수 있는 능력이 필요하지 않을까 생각합니다.