컴퓨터공학/통계학

통계조작에 속지 않으려면...

미니~ 2022. 12. 13. 08:41

미국의 저널리스트인 대럴 허프는 "통계 용어를 올바르게 이해하고 정직하게 사용하는 발표자와, 사용된 용어의 뜻을 올바르게 이해할 수 있는 대중들이 함께 하지 않는다면 그 결과는 황당한 말장난에 불과"하다고 말한다.

그래서 그는 "새빨간 거짓말, 통계"란 책에서 통계 수치를 그대로 믿으면 안된다고 말한다.  
표본의 크기, 비율에 따라 통계 결과가 달라지기도 하고,
산술평균값, 중앙값, 최빈값 등 어떤 평균을 사용하느냐에 따라 의미가 달라지기도 하고, 
그래프 축의 간격만 바꿔도 시각적으로 전혀 다른 모습을 보여줄 수도 있기 때문이다. 

이러한 통계 조작에 속지 않으려면 다음의 5가지 질문으로 통계 자료를 찔러봐야 한다고 저자는 말한다. 

1. "누가 발표했는가?" 
즉 통계의 출처를 살펴봐야 한다.
통계를 사용하는 목적이 자신이 주장하는 이론의 완벽성을 과시하기 위해서이거나 명예를 위해서 혹은 돈을 목적으로 하는 것이지 살펴보는 것만으로도 고의적으로 혹은 무의식적으로 저질러진 통계의 왜곡을 골라내기 쉬워진다고 한다.

2. "어떤 방법으로 알게 되었는가?"
통계 조사 방식을 살피는 것은 표본이 신뢰할 만한 결론을 얻기에 충분한 크기인지 등 표본의 왜곡을 확인하는 것이다.

3. "빠진 데이터는 없는가?"
표본의 크기, 확률오차, 표준편차와 같은 신뢰도에 관한 자료를 우선 살피고
비교할 숫자가 없어서 아무 의미 없는 숫자는 아닌지, 
실제 숫자가 없어 의미없는 백분율은 아닌지 등 이른바 '숨겨진 자료'를 찾아봐야 한다. 
또한 지수를 계산할 때 기준이 빠져 있는 경우, 통계에 변화를 주는 외부적인 원인이 언급되지 않은 경우도 통계 숫자를 그대로 받아들여서는 안 된다. 

4. "내용이 뒤바뀐 것은 아닌가?"
전후관계와 인과관계가 뒤바뀌지 않았는지 논리적 오류도 없는지 따져봐야 한다. 

5. "상식적으로 말이 되는 이야기인가?"
조금이라도 석연치 않은 부분이 있다면 조사해야 한다는 것이다. "통계는 숫자라는 마술에 의해 사람들의 상식을 마비시켜 버리는 까닭이다."