컴퓨터공학/통계학

통계를 왜 배워야 하는가?

루키~ 2012. 12. 14. 08:30

미분적분, 수치해석, 확률통계~ 고등학교 때부터 대학교 초기까지 배웠던 통계 관련 과목들입니다. 

그동안 별로 관심을 가지지 않고 지냈었는데.. 최근 프로젝트와 맞물려서 다시 공부를 해야 겠다는 생각을 했네요. 

역시 사람은 뭐든지 필요할 때가 되어야 비로소 진정한 의미를 알고 다시 시작하는 건가 봅니다. ^^


앞으로 꾸준히 통계 부분에 대해서는 공부를 하면서 가끔 정리해 볼 계획입니다. 

제가 뭐 통계학자도 아니고, 수학을 전공한 사람도 아니기에 제가 이해하는 수준에서 나중에 참고할 수 있도록 부담없이 정리하려고 합니다. 

혹시 제가 잘못 이해하고 있는 것을 본 전문가들은 가감없이 댓글 달아주시면 좋겠습니다. 


통계의 중요성

먼저 통계가 무엇인지부터 정리를 해야 할 것 같네요. 

Head First Statistics 책을 보면 다음과 같이 나와 있습니다. (일단 Head First 책으로 시작해서 관련 내용을 많이 참조했습니다.)

Statistics are numbers that summarize raw facts and figures in some meaningful way. 

They present key ideas that may not be immediately apparent by just looking at the raw data.


즉, 통계도 하나의 숫자라는 것인데요. 의미있는 핵심적인 내용을 보여주는 숫자라는 것입니다. 


그럼 통계를 왜 배워야 할까요? 

통계를 제대로 배운다면 객관적인 결정을 내릴 수 있게 되고, 뛰어난 직관처럼 보이는 정확한 예측을 할 수 있게 되며, 원하는 메시지를 가장 효과적인 방식으로 전달할 수 있게 됩니다. 


또한 통계는 사실에 기초를 두고 있지만 간혹 사실과 다른 내용으로 보여지도록 만들 수도 있다고 합니다. 

다음 그림을 보면 이해가 빠를 것 같습니다. 



위 그림을 보면 동일한 회사의 월별 수익 변화를 나타내고 있습니다. 

그런데 첫번째 그림을 보면 이익의 변화가 거의 없어 보이고, 두번째는 이익이 증가하고 있는 것으로 보입니다. 

당연히 눈치채셨겠지만, 바로 수직축의 값이 다르기 때문입니다. 

즉, 아래 그래프에서 보면 0부터 시작하지 않고 2.0부터 시작한 걸 확인할 수 있습니다. 


그러나 그래프를 자세히 살펴보지 않는다면 이런 부분을 정확하게 확인하지 못하고 직관적으로 이익이 증가하고 있다는 잘못된 판단을 할 수도 있는 것이겠죠.. 

그래서 통계에 대한 공부가 필요한 것 같습니다. (물론 위 그림은 초등학생도 파악할 수 있는 것이긴 하지만.. ^^)

통계라는 숫자를 정확하게 읽고 분석하고 예측할 수 있도록 앞으로 기초부터 꾸준히 스터디를 해보려고 합니다. 


기본 용어

도수(Frequency): 도수는 어떤 특정한 그룹이나 범위 안에 얼마나 많은 항목이 들어 있는지 나타내는 값입니다. 항목의 수를 센 값이라고 하네요. 

범주적 데이터(Categorical data): 일정한 범주로 나눈 다음 각 범주의 성질이나 특징을 묘사하는 데이터입니다. 정성적 데이터라고도 한다고 합니다. 

수치적 데이터(Numerical data): 숫자를 다루는 데이터로서 값의 측정이나 개수처럼 숫자로서의 의미를 갖는다고 합니다. 정량적 데이터라고도 합니다. 

도수밀도(Frequency density): 그룹으로 묶인 데이터의 도수가 얼마나 집중되어 있는지 나타냅니다. "Frequency / Group width"로 계산합니다.

히스토그램(Histogram): 그룹으로 묶인 데이터를 위한 차트로 각 막대의 높이는 도수가 아니라 도수밀도의 값을 나타냅니다. (막대 사이의 빈 공간이 없는 막대그래프를 생각하면 됩니다.)

누적도수(Cumulative frequency): 특정 값에 이르기까지의 도수의 합을 의미합니다. 즉 누적도수는 도수의 누적 합계입니다.