'컴퓨터공학/통계학'에 해당되는 글 8건

  1. 2017.03.13 통계적 가설 검정(Statistical Hypothesis Testing) 절차
  2. 2013.03.31 순열과 조합
  3. 2013.02.19 이산확률분포 #2 - 선형변환과 독립관측
  4. 2013.02.06 이산확률분포 #1 - 기대 수준을 관리
  5. 2013.01.21 확률 - 일어날 가능성을 측정하는 방법
  6. 2012.12.28 변이와 분포 - 분산과 표준편차
  7. 2012.12.18 평균에 대한 정리 (mean, median, mode)
  8. 2012.12.14 통계를 왜 배워야 하는가?

통계적 가설 검정(Statistical Hypothesis Testing) 절차

|



통계적 가설 검정은 통계적 추측의 하나이다. 

전체 집단의 실제 값이 얼마라는 주장에 대해서 표본을 활용해 가설의 합당성 여부를 판단하는 것이다. 


빅데이터 시대에는 전체 데이터 대상으로 수집, 처리하기 때문에 통계적 가설 검정이 필요하지 않다. 

그러나 전체 데이터를 수집할 수 없다면, 통계적으로 가설이 적합한지를 결정하기 위해 반드시 필요한 절차다. 


통계적 가설 검정 절차 

통계적 가설 검정은 다음 5가지 절차를 거쳐서 수행한다. 

1. 유의수준의 결정, 귀무가설과 대립가설 설정

2. 검정통계량 결정

3. 기각역의 설정

4. 검정통계량 계산

5. 통계적인 의사결정


유의수준의 결정, 귀무가설과 대립가설 설정

유의수준(Significance level)이란 통계적 가설 검정에서 사용하는 기준값으로   로 표시한다. 

여론조사 등에서 주로 사용하는 신뢰도 95%라고 할 때, 유의수준은 (1-0.95)로 계산해서 0.05가 된다. 


보통 유의수준과 유의확률(Significance Probability, p-value)을 비교해 통계적 유의성을 검정하게 되는데 

p-value에 대해서는 아래에서 정리하기로 한다. 


통계적 가설은 귀무가설()과 대립가설()로 나누어진다. 

우리나라 남성의 평균 키가 180cm라는 가설을 검정한다고 가정해보자. 

이때 귀무가설은 다음과 같이 표기할 수 있다. 

 : 


그리고 이에 대한 대립가설은 먼저 180cm가 아니라고 설정할 수 있다. 

 : 

위와 같이 대립가설은 양측검정(two-sided test)을 해야 한다.

즉, 가설검정에 대한 기각영역이 180보다 작은 부분과 큰 부분으로 양쪽에 있게 된다. 

그래서 유의수준도  /2로 계산하게 된다. 


반면에 다음과 같은 대립가설을 설정할 수도 있다. 

 : 

이와 같이 기각영역이 한쪽에만 있는 경우를 단측검정이라고 한다. 


검정통계량 결정 및 계산

검정통계량은 가설 검정에서 전체 데이터를 사용할 수 없기 때문에 이용하는 표본 데이터의 통계량을 말한다. 

보통 검정통계량은 정규분포, t분포, x2분포, F분포의 확률분포에 따라 통계량을 구한다. 


검정통계량을 구하는 공식은 다음과 같다.

정규분포                                t분포                                x2분포                                         F분포

 .                                                 


한가지 주의할 점은 검정통계량은 확률 값을 구하는 것이 아니라 그래프의 x축 좌표를 구한다는 것이다. 

아래 그림을 살펴보면 정규분포(z)에 따른 검정통계값을 "Observed Test Statistic"이라고 표시하고 있다. 

이 그림에 보면 p-value가 등장한다. 

p-value는 귀무가설이 맞다는 전제하에 통계값이 실제로 관측된 값 이상일 확률을 의미한다. 

따라서 p-value가 너무 낮다면 그렇게 낮은 확률이 실제로 일어났다고 생각하기 보다는 귀무가설이 틀렸다고 생각하게 된다. 

그래서 귀무가설을 기각하고 대립가설을 채택하게 된다. 


일반적으로 p-value가 0.05 또는 0.01보다 작으면 귀무가설을 기각하는 것이 관례이다. 


아래 기각역의 설정과 비교해서 살펴보면 유의수준과 유의확률(p-value)을 조금이라도 이해할 수 있을 것이다. 


기각역의 설정

앞에서 유의수준  를 계산했는데 이 영역에 포함될 경우, 귀무가설을 기각하고 대립가설을 채택하게 되므로 기각역(Critical Region)이라고 한다. 

반대로 1-  영역은 귀무가설을 채택하게 되기 때문에 채택역(Acceptance Region)이라고 한다. 



앞서 계산한 검정통계량이 x축 좌표라고 했는데, 이 값이 어느 영역에 있는지에 따라 귀무가설을 채택하거나 기각하게 된다. 


통계적 의사결정

마지막으로 통계적 가설 검정에 따른 결론을 내리는 단계이다. 

만약 대한민국 남성 평균 키가 180cm라는 귀무가설에 대한 검정통계량이 채택역 안에 있다면, 

"대한민국 남성의 평균 키는 180cm라고 할 수 있다" 와 같이 결론을 내리면 된다. 


위 내용을 숙지하고 실제로 통계적 가설 검정을 수행하는 예제를 살펴보면 확실히 이해가 갈 것이다. 

관련 예제는 나부랭이의 수학블로그에 잘 정리되어 있으니 살펴보기 바란다. 

신고



Trackback 0 And Comment 0

순열과 조합

|



기본적인 배열을 나타내는 순열과 조합에 대해서 간단히 살펴보도록 하죠. 


배열

n개의 사물을 배열하는 가능한 방법의 수를 찾으려고 하면 Factorial을 이용하면 됩니다. 

Factorial은 1808년 수학자 Christian Kramp가 처음 썼다고 하는데요..  n부터 1까지의 수를 모두 곱하는 것이죠. 



다른 형식으로는 다음과 같이 사용할 수 있습니다. 

파이는 곱을 의미하니 한번 기억해 두면 좋을 듯 합니다. 


프로그래밍을 처음 배울 때 재귀함수 호출하면서 Factorial에 대해서 한번씩 구현해 본 기억이 있을 겁니다. 

만약 n개의 사물이 원형으로 배열되어 있다면, (n-1)!의 배열이 존재하겠죠.. 


추가로 n개의 사물을 배열하려고 할 때, 그 안에 j개의 사물이 하나의 종류이고, k개의 사물이 또 다른 종류이고, m개의 사물이 역시 또 다른 종류일 때, 전체 배열의 수는 다음과 같이 구합니다. 



순열과 조합

순열은 어떤 사물의 집합에서 순서를 고려하면서 사물을 꺼내는 방법의 수를 나타냅니다. 

각 위치를 채우는 방식의 수를 센다는 점에서 순열은 조합보다 훨씬 구체적입니다. 


조합은 어떤 사물의 집합에서 순서를 고려하지 않은 채 사물을 꺼내는 방법의 수를 나타냅니다. 

각 위치를 채우는 방식에 대해 알 필요가 없기 때문에 조합은 순열보다 훨씬 일반적이라고 합니다. 

조합은 어떤 사물이 선택되었는지가 중요할 뿐입니다. 


즉, 순열은 순서와 상관이 있으나 조합은 순서와 상관이 없는 것이죠. 


n개의 사물이 있는 집합에서 r개의 사물을 선택할 때 순열의 값은 다음과 같습니다. 



n개의 사물이 있는 집합에서 r개의 사물을 선택할 때 조합의 값은 다음과 같이 계산합니다. 



간략하게 순열과 조합에 대해서 한번 정리해봤습니다. 

다음부터 확률분포에 대해 좀 더 자세히 알아보도록 하죠.. 

 

신고



Trackback 0 And Comment 0

이산확률분포 #2 - 선형변환과 독립관측

|



지난번에 이산확률분포에 대한 개념과 기대치, 분산을 구하는 방법에 대해서 정리해 봤습니다. 

이어서 이산확률분포에서 사용할 수 있는 선형변환과 독립관측에 대해 살펴보기로 하겠습니다. 


선형변환

기대치를 구할 때 슬롯머신을 예로 들었는데요. 

만약 슬롯머신이 게임당 1불에서 2불로 오르고. 당첨금도 5배가 올랐다고 생각해 보죠.. 

이 경우, 기대치를 구하기 위해서는 각 수익에 대한 확률분포를 만들고 다음 공식을 사용하면 됩니다. 



혹시 처음본다고 느끼시는 분은 이산확률분포#1 - 기대 수준을 관리 글을 다시 읽어 보시기 바랍니다. ^^

X를 Y로만 바꾼 겁니다. ㅠㅠ


그런데 우리는 이미 기존의 수익 X와 기대치 E(X), 그리고 분산 Var(X)까지 값을 알고 있습니다. 

처음부터 하나씩 계산하지 않고 이런 정보를 활용해서 구할 수는 없을까요?

먼저 기존 수익 X와 새로운 수익 Y에 대한 수식부터 만들어 보겠습니다. 



M을 원래 당첨금이라고 할 때, 위와 같은 식을 만들 수 있을 겁니다. 

M을 기준으로 정리해 보면 최종적으로 X와 Y의 관계는 다음과 같이 나옵니다. 



이전 수익 X와 새로운 수익 Y와는 분명 관계가 있는데 이를 기대치와 분산에 적용하면 어떻게 될까요?

일반화한 공식 부터 먼저 정리해보도록 하죠. 



분산은 기본적으로 평균에서의 거리를 제곱해서 구하기 때문에 상수 a를 제곱해서 적용하는 듯 합니다. 


그렇다면 이런 선형 변환과 관련된 공식을 왜 알고 있어야 할까요? 

값이 달라질 때마다 새롭게 기대치나 분산을 계산하지 않고 

이미 알고 있는 기존의 값을 이 공식에 대입해서 쉽게 새로운 기대치와 분산을 구할 수 있기 때문입니다. 


독립관측

이번에는 동일한 수익이 기대되는 슬롯머신을 여러번 수행한다고 생각해 보죠. 

과연 이것은 선형변환일까요? 


앞에서 설명한 것처럼 선형변환은 기대하는 수익이 변경되는 것입니다. 

다시 말하면 기대하는 확률이 변경되지는 않은 것이죠. 

그러나 동일한 게임을 여러번 수행한다는 것은 기대하는 수익과 확률이 모두 변한다는 것을 의미합니다. 

즉 E(X1 + X2)가 되는 것이죠. 이것은 분명히 선형변환인 E(2X)와 다른 것입니다. 

이러한 것을 독립관측이라고 합니다. 



위 그림을 살펴보면 2X는 수익이 2배 늘어난 선형변환이고, W는 2번 수행함으로써 수익과 확률이 모두 바뀐 독립관측이 됩니다. 

이를 구하는 식은 다음과 같이 나타낼 수 있습니다. 



만약 X와 Y가 전혀 다른 사건이면서 독립관측이라면 다음과 같이 구할 수도 있습니다. 



확률 변수를 뺄 수도 있다고 하는데요.. 이때는 분산을 주의깊게 보셔야 합니다. 

분산은 평균에서의 거리이므로 빼더라도 거리, 즉 변동성이 증가하므로 더해주어야 합니다. 



분산에서 서로 더한 것을 다시한번 생각하면서 살펴보시기 바랍니다. 


선형변환 vs. 독립관측

약간 혼란스러울테니 한번 선형변환과 독립관측을 비교해 보도록 하죠. 

다음은 Head First Statistics 책에 나와 있는 예제인데요. 각 항목이 선형 변환인지 독립관측인지 생각해 보시기 바랍니다. 

답은 맨 아래에 올려 놨습니다. 


  1. 특대컵에 들어있는 커피의 양. X는 보통 크기의 컵에 들어 있는 커피의 양.
  2. 매일 추가적으로 커피 마시기. X는 컵 하나에 들어있는 커피의 양.
  3. 10개의 로또 복권을 샀을 때의 순수익. X는 1개의 로또 복권을 샀을 때의 순수익.
  4. 로또 복권 값이 상승한 다음에 복권 한장이 갖는 순수익. X는 1장의 복권을 샀을 때의 순수익. 
  5. 아침에 먹을 계란을 낳게 하기 위한 암탉을 추가로 구입하기. X는 암탉 한 마리가 한 주 동안 낳는 계란의 수. 


이제 마지막으로 수식을 정리해 보겠습니다. 



선형변환과 독립관측의 구분과 관련한 답은 다음과 같습니다.

1번과 4번이 선형변환이고 2, 3, 5번이 독립관측에 해당합니다. 



신고



Trackback 0 And Comment 0

이산확률분포 #1 - 기대 수준을 관리

|



확률분포

위키피디아에 따르면 확률분포를 다음과 같이 정의하고 있습니다.

확률분포(probability distribution)는 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.


주사위를 던질거나 슬롯머신을 할 때 나올 수 있는 모든 가능성의 확률을 모아놓은 집합이 확률분포라고 할 수 있습니다. 

다음 그림을 보면 주사위 두개를 던졌을 때 나올 수 있는 두 주사위의 합을 확률분포로 나타내고 있네요. 


그러면 이를 수식으로는 어떻게 표현할까요? 

정의를 다시 보면 "확률변수가 특정한 값을 가질 확률..." 이라고 되어 있습니다. 

확률변수는 일반적으로 X나 Y와 같이 대문자로 표기합니다. 

그리고 변수가 가질 수 있는 특정한 값은 x나 y처럼 소문자로 나타내죠.. 



변수 X가 특정한 값 x를 가질 확률을 위와 같이 P(X=x)라고 표기하게 됩니다. 



만약 위와 같이 특정한 값 x에 대한 모든 가능성을 나타낸 것이 바로 확률분포라고 할 수 있습니다.


확률분포는 일반적으로 이산확률분포와 연속확률분포로 나누어지는데요. 

주사위 예제나 위의 표와 같이 변수가 정확한 값을 가지고 있으면 이산확률분포라 하구요. 

정규분포와 같이 연속적으로 나타나면 연속확률분포라고 합니다. 


앞으로 정리할 내용들은 이산확률분포에 대해서 다룰 것이고, 연속확률분포는 적분을 통해서 유사한 것들을 계산할 수 있습니다. 


기대치와 분산

확률분포를 알아야 하는 이유가 무엇일까요?

예를 들어, 슬롯머신을 할 때 한번에 딸 확률만 계산할 때는 확률분포가 큰 의미가 없어 보입니다. 

그러나 장기적으로 슬롯머신을 할 때 얼마를 따거나 잃을 수 있는지 알고 싶다면, 기존의 확률가지고는 안되겠죠. 

이러한 것을 기대치(expected value)라고 하는데요. 확률분포를 위한 것이기는 하지만 평균값과도 유사하다고 합니다. 



E(X)를 X의 기대치라고 하구요. 

기대치를 구하기 위해서 각 값(x)을 그것의 확률(P(X=x))로 곱하고 그 결과를 모두 더하는 것입니다. 


그럼 위에 있는 확률분포 표를 기반으로 E(X)를 한번 계산해 보시기 바랍니다. 

기대치는 -0.77이 나오게 될 것입니다. 


기대치는 평균적인 값을 말해주지만 값들이 분포되어 있는 방식을 알려주지는 않습니다. 

그래서 기대치가 평균값과 유사하다면, 평균에서 정리했던 분포되는 방식을 나타내는 분산을 사용할 수도 있어야 할 것입니다. 


평균에서 분산을 어떻게 구했는지 기억을 되살려볼까요?

바로 평균에서의 거리를 구하고 그 값을 제곱해서 양수로 만든 다음 평균을 구했었죠. 



유사하게 기대치와의 거리를 구하고 제곱해서 다음과 같이 나타냅니다. 



여기에서 u는 E(X), 즉 기대치를 나타내는 다른 표현입니다. 

기대치와의 거리를 제곱한 값에 대한 기대치를 구하기 위해서 다음과 같은 수식을 이용합니다. 

E(X)의 값을 구하는 것과 비교해서 보세요. 



확률에 x를 곱하는 대신 (x-u)2을 곱한 형태가 됩니다. 

표준편차를 구하려면 당연히 제곱근을 씌우면 되겠죠.. 



그렇다면 분산이나 표준편차가 낮은 것과 높은 것은 어떤 차이가 있을까요? 

낮을수록 게임당 기대할 수 있는 값이 기대치에 가까워지므로 보다 안정적이라고 할 수 있겠죠. 

높다면 기대할 수 있는 금액의 변화가 커서 상대적으로 예측하기 어렵다고 보면 됩니다. 


기대치에 대한 선형변환과 독립관측에 대해서는 한번 더 정리해 보기로 하죠


신고



Trackback 0 And Comment 0

확률 - 일어날 가능성을 측정하는 방법

|



확률(Probability)

확률을 왜 배워야 할까요? 

확률은 어떤 일이 발생할 가능성을 측정함으로써 미래를 예측할 수 있도록 합니다. 

이렇게 어떤 일이 일어날 가능성을 미리 파악함으로써 실제 정보를 바탕으로 의사 결정을 내릴 수 있도록 도와줄 수 있습니다. 


그렇다면 확률은 어떻게 구하게 될까요?

확률은 0과 1사이의 값을 갖게 되는데요. 

A라는 사건이 일어날 확률을 구하는 방식은 다음과 같습니다. 



여기에서 n(S)는 전체 경우의 수이고 n(A)는 사건 A가 일어날 수 있는 경우의 수를 나타냅니다. 


그렇다면 만약 사건 A가 일어나지 않을 확률은 어떻게 구할까요?

이것을 A'라고 표시하고 사건 A에 대한 여사건(complementary event)라고 합니다. 

사건 A가 일어날 확률과 사건 A가 일어나지 않은 확률의 합은 항상 1이 됩니다. 

그러므로 다음 공식을 통해 P(A')를 구할 수 있습니다. 



한가지 기억해야 할 사항은 확률은 어떤 사건이 일어날 가능성에 대해서 이야기 해 주는 것일 뿐 반드시 보장하는 것은 아닙니다. 

로또의 당첨확률이 1/8,145,060에 불과해도 1등이 나오니까요.. 

아무리 일어날 가능성이 낮아도 불가능한 것이 아니라면 일어날 수 있다는 것이죠. 


벤다이어그램(Venn Diagram)

확률을 숫자로만 표시하지 않고 그림으로 나타내는 방법이 몇가지 있습니다. 

아무래도 그림이 보다 직관적이기 때문인데요. 

대표적인 것이 바로 다음과 같은 벤다이어그램이 아닌가 합니다. 

벤다이어그램을 살펴보면 두 사건이 동시에 발생할 수 없는 배반사건과 다음 그림처럼 동시에 발생할 수 있는 교사건을 쉽게 확인할 수 있습니다.



만약 위 그림과 같은 벤다이어그램에서 P(AUB)를 구한다면 어떻게 될까요?

P(A)와 P(B)를 더하면 교집합 부분을 두번 더하게 되므로 교집합을 한번 빼주면 되겠죠. 



그렇다면 다음 수식은 과연 어떤 확률을 나타낼까요? 



그림을 보고서 생각해 보면 사건 A가 발생할 확률인 P(A)를 나타내는 것을 알 수 있을 것입니다. 

이렇게 동일한 확률을 다른 각도에서 바라보는 것이 때로는 도움이 된다고 합니다. 


조건부 확률(Conditional Probabilities)

조건부 확률은 어떤 사건(B)이 발생한 것을 전제로 다른 사건(A)이 일어날 확률을 의미하며 P(A|B)로 표시합니다. 

벤다이어그램을 참고로 생각해 보면, P(A|B)는 B사건이 발생한 것 중에서 A와 B가 동시에 발생한 것의 비율을 구하면 됩니다. 



이것을 약간 변형해서 보면 다음과 같이 생각할 수도 있습니다. 




이러한 조건부 확률을 한번에 살펴보기 위해 다음과 같은 형태의 확률트리를 주로 사용합니다. 



일반적으로 벤다이어그램은 기본적인 확률과 관계를 나타내는데 편리하고, 

확률트리는 조건부 확률을 다룰때 활용한다고 합니다. 


베이즈 정리(Bayes's Theorem)

만약 다음과 같은 확률트리가 있다고 생각해 보죠.. 



여기에는 P(B|A)가 주어져 있습니다. 

그런데 반대로 B 사건이 발생한 이후에 A 사건이 발생하는 조건부 확률, 즉 P(A|B)를 구하려면 어떻게 해야 할까요?

위에서 살펴본 공식은 다음과 같습니다. 



먼저 다음 공식을 활용하면 교집합은 구할 수 있을 겁니다.  

이래서 똑같은 수식을 여러가지 관점에서 바라볼 필요가 있다고 하는 듯 하네요. ^^



그러면 P(B)는 어떻게 구할 수 있을까요? 

이번에는 벤다이어그램에서 부분에서 살펴본 공식을 활용해 보죠.. 



복잡해 보이지만 다 앞에서 설명한 내용입니다.

또 교집합을 구해야 한다면 확률트리에서 다시 구할 수 있겠죠.. 




최종적으로 두 가지를 더하면 P(B)는 다음과 같습니다.



이제 필요한 값을 모두 구했으니 P(A|B)를 구하는 식을 정리할 수 있겠네요. 



이것을 바로 베이즈정리라고 합니다. 

그렇다면 과연 베이즈정리를 실생활에 어떻게 적용할 수 있을까요? 


이메일을 필터링해서 스펨메일을 감지할 때나 유전자 검사로 친부모 확인 등에도 사용한다고 하는데요. 

데이터마이닝에서도 일정한 패턴을 추출해 데이터의 확률 개선이나 인과관계 분석에도 사용한다고 합니다. 

의학 검진에서도 양성반응일때 병에 걸릴 확률같은 것을 계산하는 것도 일종의 베이즈 정리라고 할 수 있겠죠. 


이상으로 확률에 대해서 기본사항 부터 베이즈 정리까지 한번에 정리했습니다. 

공식 자체보다는 공식을 이해하고 실제 필요한 곳에 활용할 수 있는 능력이 필요하지 않을까 생각합니다. 


신고



Trackback 0 And Comment 0

변이와 분포 - 분산과 표준편차

|



통계에서 분산이나 표준편차라는 말은 많이 들어봤고 수식도 외워봤지만 이것을 왜 써야 하는지는 모르고 배웠던 것 같습니다. 

그래서 이번에는 분산과 표준편차를 중심으로 변이와 분포에 대해서 정리해 보려고 합니다. 


범위

앞서 평균과 관련해서 평균값, 중앙값, 최빈값을 정리했습니다. 

만약 여러 사람의 데이터를 비교하려고 하는데 평균이 모두 동일한 경우라면, 데이터의 분포를 통해 비교해 볼 수 있을 것입니다.

데이터의 분포를 확인하는 가장 쉬운 방법은 바로 범위(range)입니다. 

범위는 가장 큰 값에서 가장 작은 값을 빼면 되므로 쉽게 계산할 수 있습니다. 

그러나 범위에서도 이상치가 나타나면 그 값의 폭이 너무 커지게 됩니다. 

그래서 사분위수와 같은 것을 사용하기도 하는데요. 

다음 그림(box and whisker diagram)을 보면 범위와 관련된 항목들을 쉽게 이해할 수 있을 것입니다. 


용어를 정리해 보면 

  • 범위(Range): 데이터의 폭으로 얼마나 많은 숫자 값을 포함하고 있는지 알려줌
  • 상한(Upper bound): 가장 큰 값
  • 하한(Lower bound): 가장 작은 값
  • 사분위수(quartile): 데이터를 동일한 크기의 조각으로 나누는 값 (보통 4개의 조각으로 나눔)
  • 상한 사분위수 (Upper quartile): 3/4 위치에 있는 값으로 값이 가장 큰 사분위수 
  • 하한 사분위수 (Lower quartile): 1/4 위치에 있는 값으로 값이 가장 작은 사분위수
  • 사분범위(Interquartile range): 상한 사분위수에서 하한 사분위수를 뺀 값


분산

사분위수를 사용하더라도 범위의 한계 때문에 좀 더 정확한 분포를 확인할 필요가 종종 있습니다. 

이를 위해 평균에서의 거리를 계산하는 방식을 도입하게 됩니다. 

평균에서의 거리를 계산해서 그 값이 작을수록 평균에 가까우므로 좀 더 고른 데이터라고 할 수 있게됩니다. 

그러나 평균에서의 거리를 계산해서 더하면 당연히 0이 됩니다. (평균이 모두 더한 다음 개수로 나눈 값이니까요)

그래서 평균에서의 거리를 제곱해서 (모두 양수로 만듭니다.) 평균을 구하는 값을 사용하게 됩니다. 

이것이 바로 분산(variance)으로 데이터 집합의 분포를 나타낼때 가장 많이 사용하는 방법입니다. 



x-u가 바로 평균에서의 거리가 되겠죠.. 


다음과 같은 변환식을 거쳐서 분산을 조금 더 쉽고 빠르게 계산할 수도 있습니다. 




표준편차

분산이 데이터의 분포를 잘 나타내지만 평균과의 거리를 제곱했기 때문에 

실제 데이터가 평균에서 어느정도 떨어져 있는지 바로 이해하기가 어렵습니다. 

그래서 분산에 제곱근을 씌워서 생성한 값인 표준편차를 사용하기도 합니다. 


만약 표준편차 값이 4.12였다면 일반적으로 평균값으로부터 4.12만큼 떨어져 있다고 생각할 수 있습니다. 

결과적으로 표준편차는 분산과 유사하지만 평균값으로부터의 거리를 측정할 수 있다는 장점이 있습니다.



표준점수

만약 서로 다른 평균값과 표준편차를 가지고 있는 데이터 집합을 비교해야 한다면 이때는 표준점수라는 방법을 사용합니다. 

예를 들어서 농구경기에서 A 선수는 평균적으로 70%의 슛 성공률이 있고 표준편차는 20%이고

B 선수는 평균값이 40%이고 표준편차는 10%라고 할때, 

실제 시합에서 A 선수는 슛의 75%를 네트에 넣었고, B 선수는 55%를 성공했다고 하면 누가 평상시보다 경기를 잘한 것일까요? 



위의 표준점수 계산 공식으로 각각을 계산해보면 A 선수는 0.25, B 선수는 1.5가 나옵니다. 

즉, 점수를 표준화하면 B 선수의 점수가 더 높음을 알 수 있습니다. 

이것은 A 선수가 B 선수에 비해 평균적으로 높은 득점을 올리는 선수이지만 

이 경기에서는 B 선수가 평상시 기록과 비교했을 때 A 선수보다 더 나은 성과를 올렸음을 나타냅니다. 


표준점수를 활용하면 개별적인 데이터 집합을 마치 동일한 데이터 집합이나 분포에서 비롯된 것처럼 비교할 수 있게 됩니다. 


이상으로 많이 들어보기는 했지만 명확히 개념을 세우지 못했던 분산과 표준편차에 대해서 간단히 정리했습니다. 


신고



Trackback 0 And Comment 0

평균에 대한 정리 (mean, median, mode)

|



평균(average)이란 것은 워낙 많이 사용해서 잘 알고 있다고 생각하기 쉽습니다. 

학교 성적의 평균, 제품의 평균 가격 등 실생활에서도 많이 사용하기 때문이죠. 

그런데 평균(average)에도 우리가 알고 있는 평균값(mean)이외에도 다른 종류의 평균이 존재합니다. 

이에 대해서 간략하게 정리해 보도록 하죠. 


평균값(mean)

가장 일반적인 평균값(mean) 계산 공식은 다음과 같습니다. 

즉, 모든 수를 더한 다음에 총 개수로 나누면 평균값(mean)이 완성됩니다. 


만약 도수가 있다면 다음과 같이 계산하면 됩니다. 

각 수에 도수를 곱한 다음에 그 결과를 모두 더하고 도수의 합으로 나누는 것이죠. 


그런데, 만약 값이 극단적으로 한쪽으로 치우쳐 있는 경우에 평균값(mean)은 왜곡될 경우가 있습니다. 

예를 들어 특정 프로그램의 실행횟수를 계산해서 평균값을 제공한다고 생각해 보면.. 

개발자 한명이 테스트를 위해 하루에 1,000번씩 실행하고, 실제 사용자인 10명이 10번씩만 실행한다고 하면 

평균값(mean)은 100번이 됩니다. 


중앙값(median)

이런 평균값(mean)은 의미가 없겠죠.. 

그래서 편향된 데이터와 이상치 때문에 그룻된 정보를 제공하는 경우를 위해 다른 평균이 존재합니다. 

바로 중앙에 있는 값을 가져오는 것인데요. 이를 중앙값(median)이라고 합니다. 


중앙값(median)은 가운데 있는 값을 계산하면 되는데요. 

처리 방법은 다음과 같습니다. 


  1. 작은 수에서 큰 수로 정렬
  2. 홀수인 경우, 한 가운데 값 (n+1)/2의 위치에 있는 값을 중앙값(median)으로 계산
  3. 짝수인 경우, 가운데 두 수를 더한 다음 2로 나누어서 중앙값(median)을 계산


실제로 평균값(mean)을 계산하는 것보다 중앙값(median)을 계산하는게 프로그래밍 적으로는 좀 더 복잡하기는 합니다. 


최빈값(mode)

다음 그림과 같은 특이한 경우에 최빈값(mode)을 평균으로 사용하기도 합니다. 



위 그림을 보면 그래프의 특성상 평균값(mean)이나 중앙값(median)이 실제 존재하지 않는 값을 나타내게 되므로 의미가 없어집니다.

이런 경우, 최빈값(mode)은 도수가 가장 높은 값을 나타내는데..  여기에서는 2와 32가 최빈값(mode)이 되겠죠.. 


위 그림과 같은 것을 bimodal이라고도 하는데요. 

이런 그래프는 만나지 못해서 아직까지 최빈값(mode)은 사용하지 못해봤네요.. ^^


통계 더 알아보기

통계를 왜 배워야 하는가?

통계의 중요성과 기본 용어들을 설명하고 있으니 꼭 살펴보세요

분산과 표준편차

평균을 알았다면 이제 분산과 표준편차를 이해할 차례입니다.

확률, 일어날 가능성을 측정하는 방법

조건부확률, 베이즈 정리 등 확률의 기본을 살펴볼 수 있습니다. 

이산확률분포 - 기대값과 분산

확률 분포를 알아보고 기대치를 계산해 보세요. 

이산확률분포 - 선형변환과 독립관측

선형변환으로 기대치의 변형을 이해하고 독립관측과 구분해 보세요. 

순열과 조합

배열, 순열, 그리고 조합에 대해서 고등학교 시절 기억을 떠올려 보세요~

기계학습이란?

수학적 지식을 기계학습(Machine Learning)에 활용해 보세요.

신고



Trackback 0 And Comment 0

통계를 왜 배워야 하는가?

|



미분적분, 수치해석, 확률통계~ 고등학교 때부터 대학교 초기까지 배웠던 통계 관련 과목들입니다. 

그동안 별로 관심을 가지지 않고 지냈었는데.. 최근 프로젝트와 맞물려서 다시 공부를 해야 겠다는 생각을 했네요. 

역시 사람은 뭐든지 필요할 때가 되어야 비로소 진정한 의미를 알고 다시 시작하는 건가 봅니다. ^^


앞으로 꾸준히 통계 부분에 대해서는 공부를 하면서 가끔 정리해 볼 계획입니다. 

제가 뭐 통계학자도 아니고, 수학을 전공한 사람도 아니기에 제가 이해하는 수준에서 나중에 참고할 수 있도록 부담없이 정리하려고 합니다. 

혹시 제가 잘못 이해하고 있는 것을 본 전문가들은 가감없이 댓글 달아주시면 좋겠습니다. 


통계의 중요성

먼저 통계가 무엇인지부터 정리를 해야 할 것 같네요. 

Head First Statistics 책을 보면 다음과 같이 나와 있습니다. (일단 Head First 책으로 시작해서 관련 내용을 많이 참조했습니다.)

Statistics are numbers that summarize raw facts and figures in some meaningful way. 

They present key ideas that may not be immediately apparent by just looking at the raw data.


즉, 통계도 하나의 숫자라는 것인데요. 의미있는 핵심적인 내용을 보여주는 숫자라는 것입니다. 


그럼 통계를 왜 배워야 할까요? 

통계를 제대로 배운다면 객관적인 결정을 내릴 수 있게 되고, 뛰어난 직관처럼 보이는 정확한 예측을 할 수 있게 되며, 원하는 메시지를 가장 효과적인 방식으로 전달할 수 있게 됩니다. 


또한 통계는 사실에 기초를 두고 있지만 간혹 사실과 다른 내용으로 보여지도록 만들 수도 있다고 합니다. 

다음 그림을 보면 이해가 빠를 것 같습니다. 



위 그림을 보면 동일한 회사의 월별 수익 변화를 나타내고 있습니다. 

그런데 첫번째 그림을 보면 이익의 변화가 거의 없어 보이고, 두번째는 이익이 증가하고 있는 것으로 보입니다. 

당연히 눈치채셨겠지만, 바로 수직축의 값이 다르기 때문입니다. 

즉, 아래 그래프에서 보면 0부터 시작하지 않고 2.0부터 시작한 걸 확인할 수 있습니다. 


그러나 그래프를 자세히 살펴보지 않는다면 이런 부분을 정확하게 확인하지 못하고 직관적으로 이익이 증가하고 있다는 잘못된 판단을 할 수도 있는 것이겠죠.. 

그래서 통계에 대한 공부가 필요한 것 같습니다. (물론 위 그림은 초등학생도 파악할 수 있는 것이긴 하지만.. ^^)

통계라는 숫자를 정확하게 읽고 분석하고 예측할 수 있도록 앞으로 기초부터 꾸준히 스터디를 해보려고 합니다. 


기본 용어

도수(Frequency): 도수는 어떤 특정한 그룹이나 범위 안에 얼마나 많은 항목이 들어 있는지 나타내는 값입니다. 항목의 수를 센 값이라고 하네요. 

범주적 데이터(Categorical data): 일정한 범주로 나눈 다음 각 범주의 성질이나 특징을 묘사하는 데이터입니다. 정성적 데이터라고도 한다고 합니다. 

수치적 데이터(Numerical data): 숫자를 다루는 데이터로서 값의 측정이나 개수처럼 숫자로서의 의미를 갖는다고 합니다. 정량적 데이터라고도 합니다. 

도수밀도(Frequency density): 그룹으로 묶인 데이터의 도수가 얼마나 집중되어 있는지 나타냅니다. "Frequency / Group width"로 계산합니다.

히스토그램(Histogram): 그룹으로 묶인 데이터를 위한 차트로 각 막대의 높이는 도수가 아니라 도수밀도의 값을 나타냅니다. (막대 사이의 빈 공간이 없는 막대그래프를 생각하면 됩니다.)

누적도수(Cumulative frequency): 특정 값에 이르기까지의 도수의 합을 의미합니다. 즉 누적도수는 도수의 누적 합계입니다. 


신고



Trackback 0 And Comment 0
prev | 1 | next