티스토리 뷰
"본 글은 2014년 1월 9일 지디넷코리아에 기고한 칼럼입니다."
"집에 책이 많으면 아이의 학교 성적이 좋은가?"와 같은 질문을 던지면 통계학에서 쓰이는 회귀 분석은 적절한 대답을 내놓지 않는다.
하지만 그와 약간 다른 질문에는 답을 해줄 수 있다. 예를 들면 다음과 같은 질문이다.
"집에 책이 많은 아이는 집에 책이 전혀 없는 아이보다 공부를 더 잘하는 경향이 있는가?"
스티븐 레빗(Steven Levitt)이 쓴 "괴짜 경제학"에 나오는 이야기이다.
두 질문의 차이는 무엇일까?
전자는 원인과 결과를 묻는 인과관계(Causality)에 대한 질문이다.
후자는 둘 사이의 관련이 있는지를 알고자 하는 상관관계(Correlation)를 나타낸다.
분석을 통해 상관관계를 쉽게 찾을 수 있으므로 두번째 질문에 답을 해줄수 있다.
반면 인과관계를 찾는 것은 쉽지 않다.
상관관계와 인과관계는 다음과 같이 설명할 수 있다.
아이스크림 판매량과 익사사고 발생의 관계를 살펴보면 강력한 양의 상관관계가 있다.
즉 아이스크림이 많이 팔릴 때 익사사고가 많이 발생하고 반대로 아이스크림이 적게 팔릴 때 익사사고가 덜 일어난다.
아이스크림을 못 팔게 하면 익사사고가 일어나지 않을까?
당연히 그렇지 않다.
다시 말해 아이스크림 판매량과 익사사고 발생은 상관관계는 있지만 인과관계는 아니다.
결론적으로 둘 사이의 상관관계에는 다른 원인 요소가 있다.
바로 기온의 변화가 원인 요소(Causal Factor)라 할 수 있다.
날씨가 더워졌기 때문에 아이스크림이 많이 팔리고 익사사고가 더 발생하게 된 것이다.
그렇다면 왜 분석에서 상관관계나 인과관계가 중요할까?
보통 상관관계를 찾아내면 앞으로의 미래를 예측할 수 있다.
아이스크림 판매량이 증가하고 있다면 물에 빠져 죽는 비율이 높아질 것을 알수 있게된다.
기존 분석이 과거 데이터를 리포팅하거나 현재 상태를 모니터링하는 것이었다면
최근 분석 트렌드는 미래를 예측하는 방향으로 옮겨가고 있으므로 상관관계를 파악하는 것은 매우 중요하다.
상관관계를 파악하기 위한 상관분석(Correlation Analysis)은 두가지 요소들이 어떤 관계를 갖고 있는지를 분석하는 방법이다.
상관분석을 위해서는 피어슨 상관계수나 스피어만 상관계수를 통해 두 요소들의 연관된 정도를 파악할 수 있다.
회귀 분석(Regression Analysis)을 통해 두 요소들의 변화하는 과정을 살펴 상관 관계를 확인하기도 한다.
그렇다면 인과관계는 분석에서 어떤 의미를 가질까?
인과관계를 찾아내면 앞으로를 예측하는 것 뿐만 아니라, 미래를 변화시킬 수 있게 된다.
위 사례를 예로 들면, 여름철 기온을 낮출 수 있다면 익사사고를 줄일 수 있을 것이다.
하지만 앞서 이야기한 것과 같이 분석에서 인과관계를 찾아내는 것은 쉽지 않다.
먼저 상관관계를 파악한 후 원인 요소를 가정해서 A/B 테스트, 스플릿 테스트 등을 통해 인과관계를 알아내야 한다.
필자가 진행하고 있는 모바일 분석에서도 이러한 상관관계 분석을 활용한다.
실제로 시간대 분포가 사용자 수와 상관 관계가 있는지 분석해 보기도 했다.
둘 사이의 상관관계가 있는 모바일 앱은 특정 시간대에 프로모션이나 이벤트를 진행함으로써 보다 많은 사용자의 참여를 이끌어 낼 수 있었다.
이외에도 기간 대비 사용자 수의 증감에 대해 상관계수를 통한 연관 관계를 파악한다면 다음달에는 몇명의 사용자가 증가할 것임을 예측할 수 있게 된다.
모바일 분석에서 인과관계는 다음과 같이 활용할 수 있을 듯 하다.
예를 들어, 처음 모바일 앱을 다운로드한 사용자가 20분이상 사용할 경우
해당 사용자가 한달안에 결제할 확률이 증가한다는 것을 인과관계로 찾아냈다고 가정하자.
이런 인과관계를 파악했다면, 처음 다운로드한 사용자가 앱을 오래 사용하도록 만들면 매출이 증가하게 될 것이다.
이에 따라 모바일 마케팅도 앱을 다운로드하는 것에서 최초 사용자들이 20분 이상 사용하도록 만드는 형태로 변화될 것이다.
상관관계와 인과관계를 바탕으로 분석을 수행한다면 진정한 빅데이터의 가치를 확인 할 수 있을 것이다.
'사색 > 칼럼' 카테고리의 다른 글
단기간에 빅데이터 인력 양성은 허구다 (0) | 2014.03.13 |
---|---|
개인정보와 빅데이터가 충돌하지 않게 하는 방법 (0) | 2014.02.14 |
비즈니스 프렌들리한 빅데이터 분석의 조건 (0) | 2013.12.05 |
빅데이터 실시간 처리, 오픈소스 '에스퍼' 주목하라 (0) | 2013.11.12 |
데이터 시각화의 오해와 진실 (0) | 2013.10.04 |