컴퓨터공학/통계학

변이와 분포 - 분산과 표준편차

루키~ 2012. 12. 28. 08:18

통계에서 분산이나 표준편차라는 말은 많이 들어봤고 수식도 외워봤지만 이것을 왜 써야 하는지는 모르고 배웠던 것 같습니다. 

그래서 이번에는 분산과 표준편차를 중심으로 변이와 분포에 대해서 정리해 보려고 합니다. 


범위

앞서 평균과 관련해서 평균값, 중앙값, 최빈값을 정리했습니다. 

만약 여러 사람의 데이터를 비교하려고 하는데 평균이 모두 동일한 경우라면, 데이터의 분포를 통해 비교해 볼 수 있을 것입니다.

데이터의 분포를 확인하는 가장 쉬운 방법은 바로 범위(range)입니다. 

범위는 가장 큰 값에서 가장 작은 값을 빼면 되므로 쉽게 계산할 수 있습니다. 

그러나 범위에서도 이상치가 나타나면 그 값의 폭이 너무 커지게 됩니다. 

그래서 사분위수와 같은 것을 사용하기도 하는데요. 

다음 그림(box and whisker diagram)을 보면 범위와 관련된 항목들을 쉽게 이해할 수 있을 것입니다. 


용어를 정리해 보면 

  • 범위(Range): 데이터의 폭으로 얼마나 많은 숫자 값을 포함하고 있는지 알려줌
  • 상한(Upper bound): 가장 큰 값
  • 하한(Lower bound): 가장 작은 값
  • 사분위수(quartile): 데이터를 동일한 크기의 조각으로 나누는 값 (보통 4개의 조각으로 나눔)
  • 상한 사분위수 (Upper quartile): 3/4 위치에 있는 값으로 값이 가장 큰 사분위수 
  • 하한 사분위수 (Lower quartile): 1/4 위치에 있는 값으로 값이 가장 작은 사분위수
  • 사분범위(Interquartile range): 상한 사분위수에서 하한 사분위수를 뺀 값


분산

사분위수를 사용하더라도 범위의 한계 때문에 좀 더 정확한 분포를 확인할 필요가 종종 있습니다. 

이를 위해 평균에서의 거리를 계산하는 방식을 도입하게 됩니다. 

평균에서의 거리를 계산해서 그 값이 작을수록 평균에 가까우므로 좀 더 고른 데이터라고 할 수 있게됩니다. 

그러나 평균에서의 거리를 계산해서 더하면 당연히 0이 됩니다. (평균이 모두 더한 다음 개수로 나눈 값이니까요)

그래서 평균에서의 거리를 제곱해서 (모두 양수로 만듭니다.) 평균을 구하는 값을 사용하게 됩니다. 

이것이 바로 분산(variance)으로 데이터 집합의 분포를 나타낼때 가장 많이 사용하는 방법입니다. 



x-u가 바로 평균에서의 거리가 되겠죠.. 


다음과 같은 변환식을 거쳐서 분산을 조금 더 쉽고 빠르게 계산할 수도 있습니다. 




표준편차

분산이 데이터의 분포를 잘 나타내지만 평균과의 거리를 제곱했기 때문에 

실제 데이터가 평균에서 어느정도 떨어져 있는지 바로 이해하기가 어렵습니다. 

그래서 분산에 제곱근을 씌워서 생성한 값인 표준편차를 사용하기도 합니다. 


만약 표준편차 값이 4.12였다면 일반적으로 평균값으로부터 4.12만큼 떨어져 있다고 생각할 수 있습니다. 

결과적으로 표준편차는 분산과 유사하지만 평균값으로부터의 거리를 측정할 수 있다는 장점이 있습니다.



표준점수

만약 서로 다른 평균값과 표준편차를 가지고 있는 데이터 집합을 비교해야 한다면 이때는 표준점수라는 방법을 사용합니다. 

예를 들어서 농구경기에서 A 선수는 평균적으로 70%의 슛 성공률이 있고 표준편차는 20%이고

B 선수는 평균값이 40%이고 표준편차는 10%라고 할때, 

실제 시합에서 A 선수는 슛의 75%를 네트에 넣었고, B 선수는 55%를 성공했다고 하면 누가 평상시보다 경기를 잘한 것일까요? 



위의 표준점수 계산 공식으로 각각을 계산해보면 A 선수는 0.25, B 선수는 1.5가 나옵니다. 

즉, 점수를 표준화하면 B 선수의 점수가 더 높음을 알 수 있습니다. 

이것은 A 선수가 B 선수에 비해 평균적으로 높은 득점을 올리는 선수이지만 

이 경기에서는 B 선수가 평상시 기록과 비교했을 때 A 선수보다 더 나은 성과를 올렸음을 나타냅니다. 


표준점수를 활용하면 개별적인 데이터 집합을 마치 동일한 데이터 집합이나 분포에서 비롯된 것처럼 비교할 수 있게 됩니다. 


이상으로 많이 들어보기는 했지만 명확히 개념을 세우지 못했던 분산과 표준편차에 대해서 간단히 정리했습니다.