'분석'에 해당되는 글 20건

  1. 2016.10.12 빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #2
  2. 2015.06.15 빅데이터 분석 무료 교육 안내~
  3. 2015.01.26 몬테카를로 시뮬레이션~
  4. 2015.01.05 고슴도치와 여우~ 누가 빅데이터 분석에 적합할까?
  5. 2014.03.13 단기간에 빅데이터 인력 양성은 허구다
  6. 2014.02.14 개인정보와 빅데이터가 충돌하지 않게 하는 방법
  7. 2014.01.10 모바일앱 분석으로 매출에 영향을 줄 수 있을까?
  8. 2013.12.05 비즈니스 프렌들리한 빅데이터 분석의 조건
  9. 2013.09.03 빅데이터 분석의 성공 열쇠~
  10. 2013.07.26 데이터 분석(Analytics)의 가치는 어느 정도일까?

빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #2

|



이제 본격적으로 빅데이터 가치 창출을 위한 5단계의 프로세스를 살펴보기로 한다. 

이것은 일반적인 빅데이터 분석 과정인 "데이터 획득 - 데이터 준비 - 데이터 분석 - 시각화 - 활용"을 의미한다. 


데이터 획득 (Acquire)

데이터 획득은은 단순히 데이터를 수집하는 것만을 의미하지 않는다. 

먼저 데이터 셋을 명확하게 정의해야 한다. 

어떤 데이터들이 있고, 해당 데이터의 특성이 무엇인지를 명확하게 설정해야 한다. 

그리고 나서 데이터를 검색해보거나 쿼리를 할 수 있어야 한다. 


개인적으로는 이 단계에서 데이터 속성을 파악하는 것이 중요하다고 생각한다. 

데이터에 어떤 항목들이 포함되어 있고, 그것이 무엇을 의미하는 지를 알아야 올바른 가설 또는 문제를 정의할 수 있다. 


데이터 준비 (Prepare)

데이터 준비 단계는 "데이터 탐험"과 "전처리"의 두 가지로 구성된다. 

데이터 탐험은 데이터의 의미를 이해하는 과정이다. 

데이터 시각화를 통해 사전 분석을 해보기도 하면서 데이터 본질을 이해하려고 노력하는 것이다. 

획득 단계에서 파악한 속성들이 실제로 어떤 분포를 보이는지 준비 단계에서 다시 한번 확인하는 것이라 할 수 있다. 


전처리는 수집된 데이터를 분석할 수 있도록 재구성하는 과정이다. 

데이터를 명확하게 정리하고, 통합하고, 그룹화해서 실제 분석에 활용할 수 있는 형태로 구성한다. 

필요할 경우, 이 단계에서 개인정보 비식별 처리를 할 수도 있다. 


데이터 분석(Analyze) 

다양한 데이터 분석 기술들 중에서 앞서 파악한 데이터 특성에 적합한 것을 선택하고 분석 모델을 구성하는 단계이다.  

데이터 모델은 한번에 완성되는 것이 아니다. 

여기에서 정의하고 있는 5단계 프로세스는 계속 반복해서 이루어져야 하며, 

특히 이 단계에서 구성하는 데이터 모델을 발전시켜 나가는 과정이라고 봐야 한다. 


데이터 시각화(Report)

데이터 시각화 단계는 분석 모델의 결과를 서로 논의해보는 단계라 할 수 있다. 

다른 사람들과 공유할 수 있도록 시각화해서 제공하면서 

그 결과에 대한 해석을 해보는 것이다. 

데이터 과학은 주로 분석에 초점이 맞추어져 있지만, 실제로는 이 단계의 논의와 해석이 더 중요한 것 같다. 

통찰(insight)은 바로 이 단계에서 나오는 경우가 많기 때문이다. 


데이터 활용(Act)

활용 단계는 이전 단계에서 찾은 통찰을 실제로 적용해 보는 것이다. 

앞서 강의에서 행동하지 않는 분석은 무의미하다고 이야기했다. 

분석의 결과물을 적용할 수 있어야 진정한 데이터 과학이 완성되었다고 할 수 있다. 





Trackback 0 And Comment 0

빅데이터 분석 무료 교육 안내~

|



2015년 국가인적자원개발컨소시엄 지원사업으로 빅데이터 분석 관련 무료 교육이 진행될 예정입니다. 

7월 8일(수) ~ 7월 10일(금) 까지 DMC 첨단산업센터에서 진행합니다. 


1일차에는 빅데이터 분석의 필요성과 개념, 비즈니스에 적용 사례 등을 중심으로 살펴볼 계획이고

2일차에는 빅데이터 분석을 위한 관련 기술들을 다뤄볼 생각입니다. 

그리고 마지막 3일차에는 실제 빅데이터 분석을 어떻게 진행하는지, 어떤 방법이 더 나은 것인지 몇가지 주제를 정해서 함께 논의하면서 진행해 보려고 합니다. 


정식 과정명은 "오픈소스를 활용한 빅데이터 분석 (Data Science & Analytics)"이고, 제가 강의를 진행합니다. 

단순히 Hadoop이나 R 사용법만 교육하는 기존의 빅데이터 강의에서 벗어나 

수강하시는 분들이 실질적인 빅데이터 분석을 할 수 있도록 하는데 초점을 맞추고 진행하려고 생각하고 있습니다. 


재직자 대상 무료 교육으로 다음 신청 양식을 작성 후, 이메일(june@kossa.kr)로 송부하면 된다고 합니다. 

1. 국가인적자원개발 컨소시엄 협약서 직인포함_2015031

2. 훈련과정_수강신청서_교육생_2015.docx


수강 신청과 관련하여 문의사항은 한국공개소프트웨어협회 김학준 팀장(070-7730-7820, june@kossa.kr)로 하시기 바랍니다. 


관심 있는 분들의 참여 바랍니다. 





Trackback 0 And Comment 0

몬테카를로 시뮬레이션~

|



분석을 하면서 "몬테카를로 시뮬레이션"을 한번쯤은 들어봤을 것이다. 

몬테카를로는 무작위 값을 활용하여 확률적으로 계산하는 알고리즘을 이야기한다. 

이렇게 확률적으로 계산함으로써 원하는 수치의 확률적 분포를 구할 수 있게 된다. 

이를 위해 많은 수의 실험을 바탕으로 한 통계를 이용해 확률적 분포를 알게 되므로, 이것을 바로 몬테카를로 시뮬레이션이라고 한다. 


몬테카를로 시뮬레이션 개념

몬테카를로는 통계 자료가 많고 입력값의 분포가 고를수록 정밀하게 시뮬레이션 할 수 있다. 

그래서 컴퓨터를 이용해 시뮬레이션을 주로 한다. 

또한 이론적 배경이나 복잡한 수식으로 계산해야 하는 경우, 근사치를 계산하기 위해서도 몬테카를로를 많이 사용한다. 


몬테카를로 시뮬레이션은 모나코의 유명한 도박 도시이름을 따서 만들었다고 한다. 

초기 도박사들이 여러번의 임의 추출을 바탕으로 특정한 카드 조합이 나올때까지 계산했다고 한다. 



또한 폰 노이만은 원자폭탄 개발 계획인 맨해탄 프로젝트에서 중성자 확산 시뮬레이션에 이 기법을 사용했다고 한다. 

최근에도 위험관리, 품질관리, 금융공학 등에서도 몬테카를로를 널리 사용한다. 


몬테카를로 시뮬레이션 예제

몬테카를로는 임의의 수를 반복적으로 발생시켜서 계산하는 방식이다. 

위키피디아에 따르면 몬테카를로 시뮬레이션은 다음과 같은 절차를 따른다고 되어 있다. 


1. Define a domain of possible inputs. (입력값의 범위를 정한다.)

2. Generate inputs randomly from a probability distribution over the domain. (확률분포에 따라 입력값을 랜덤하게 만든다.)

3. Perform a deterministic computation on the inputs. (입력값에 대한 계산을 한다.)

4. Aggregate the results.(계산 결과를 통합한다.)


절차만 보면 그리 어려워보이지 않지만, 실제 적용하려면 난감한 것이 사실이다. 

그래서 위키피디아의 원주율 파이를 구하는 예제를 통해서 설명해 보려고 한다. 



원주율 파이 값을 구하기 위한 많은 수학적 알고리즘이 있다. 

"아르키메데스의 부등식", "비에타의 공식", "라이프니츠 급수", "마친의 공식", "오일러의 공식", "BBP 공식"등 ...


그리고 실제 값은 다음과 같다고 한다. 

π=3.141592653589793238462643383279502884197169399375⋯


몬테카를로 시뮬레이션으로 파이 값을 어떻게 구할까?

1. 정사각형을 그리고 그 안에 원을 그린다.  

2. 정사각형 안에 수많은 점을 고르게 분포한다. 

3. 분포한 전체 점의 개수와 원 안에 분포한 점의 개수를 센다. 

4. 전체 점의 개수(N)과 원 안의 점 개수(n)의 비율로 원주율 파이를 계산한다. 


다음 그림을 보면 쉽게 이해할 수 있을 것이다. 

가로와 세로의 길이가 2인 정사각형을 그리면, 사각형의 넓이는 2x2 = 4가 된다. 

그리고 수많은 임의의 점을 만들어서 원점으로부터 거리가 1이내인지를 확인하면 원 안에 분포하는지를 알 수 있다. 

원의 넓이는 "파이 x 반지름의 제곱"이므로 위 예제에서는 반지름이 1이므로 원의 넓이가 곧 파이값이 된다. 

그러므로 사각형의 넓이와 원의 넓이의 비율을 계산하면 원주율 파이가 나온다는 것이다. 


1개 점으로 하면 0 또는 4가 나올 것이다. 

그러나 100,000 정도의 점으로 하면 원주율 파이와 비슷한 3.14xxx 값이 나오게 된다. 


몬테카를로 시뮬레이션은 불확실성을 확률 분포에 의해 해결하기 위해서 데이터 분석에서도 많이 사용한다. 

이것도 일반적인 데이터 분석과 마찬가지로 미리 가정을 수립하고, 시뮬레이션과 같은 실험으로 이를 증명해 나가는 것이다. 





Trackback 0 And Comment 0

고슴도치와 여우~ 누가 빅데이터 분석에 적합할까?

|



러시아의 사상가인 이사야 벌린은 사람을 "고슴도치"와 "여우"의 두 가지 유형으로 분류했다. 

여우는 여러 가지 목적을 동시에 추구하면서 세상의 복잡한 면면을 두루 다룬다. 

그래서 오지랖 넓게 여기 저기 기웃거리는 사람이라 할 수 있다. 


반면, 고슴도치는 복잡한 세계를 단 하나의 체계적인 개념이나 기본 원리로 단순화 시킨다. 

그래서 하나의 원리를 향해 외곬으로 나아가는 사람이라 할 수 있다. 


원래 고슴도치와 여우는 라틴어 격언에서 시작한다. 

여우는 많은 것을 알지만, 고슴도치는 큰 것 하나를 안다. (Multa novit vulpes, verum echinus unum magnum)


이사야 벌린은 톨스토이가 고슴도치 타입인지 여우 타입인지를 "전쟁과 평화"를 통해 살펴보았다고 한다. 

그 결과 톨스토이는 고슴도치 타입으로 살기 원했지만 실제로는 여우 타입이었다고 한다. 



역사적 인물로 단테, 플라톤, 파스칼, 헤겔, 도스토예프스키, 니체는 고슴도치 타입, 

헤로도토스, 아리스토텔레스, 몽테뉴, 괴테, 발자크 등은 여우 타입이라고 한다. 


과연 고슴도치와 여우 중 빅데이터 분석에는 누가 적합할까? 


"좋은 기업을 넘어 위대한 기업으로"를 쓴 짐 콜린스는 여우가 아닌 고슴도치가 성공할 수 있다고 강조한다. 

고슴도치는 세상이 아무리 복잡해도 단순한 하나의 고슴도치 컨셉으로 축소시키고, 

이 고슴도치 컨셉에 부합하지 않는 것에는 전혀 관심이 없기 때문이라고 한다. 

고슴도치 컨셉을 갖는 순간 명쾌함과 단순성을 확보할 수 있다고 한다. 

즉, 사업적인 성공을 하려면 고슴도치와 같은 단순함에 기반한 하나의 가치를 가져야 할 것이다. 


반면 필립 테틀록은 전문가들의 분석에 따른 예측이 얼마나 잘 맞는지 20년간 연구를 했다.

이 과정에서 고슴도치와 여우의 양 극단으로 전문가를 분류한 결과,

여우가 고슴도치보다 예측을 잘한다는 사실을 발견했다고 한다. 


또한 네이트 실버는 "신호와 소음"에서 고슴도치에게 너무 많은 정보가 주어지는 것은 독이 된다고 했다. 

많은 정보를 가진 고슴도치들이 온갖 이야기를 만들어 내고, 이를 비판적으로 생각하는 능력을 잃어버릴 수 있기 때문이라고 한다. 


고슴도치는 큰 것 하나, 하나의 원리만을 바라보기 때문에 다양한 정보 중 자신에게 유리한 것만 취할 수 있기 때문인 듯 하다. 

반면에 여우는 여기 저기 다 고려하기 때문에 분석에 있어서 더 유리한 건 아닐까 한다. 


결론적으로 여우 타입이 빅데이터 분석에 적합하다고 볼 수 있다. 

과연 나는 여우 타입일까? 고슴도치 타입일까? 





Trackback 0 And Comment 0

단기간에 빅데이터 인력 양성은 허구다

|



"본 글은 2014년 3월 12일 지디넷코리아에 기고한 칼럼입니다."


빅데이터에 관심이 있다면 데이터 과학자(Data Scientist)에 대해 들어 봤을 것이다.  

성공적인 빅데이터 분석을 위해서 데이터 과학자들이 많이 필요하다고 한다.

 

데이터 과학자는 과연 어떤 역할을 할까? 

2012년 하바드 비즈니스 스쿨에서 발표한 '데이터 과학자: 21세기 가장 멋진 직업'(Data Scientist: The Sexiest Job of the 21st Century)이란 자료를 보면 살펴보면 이에 대한 해답이 나와 있다.

 

데이터 과학자는 복잡하고 수많은 데이터를 구조화해서 분석이 가능하게 만든다. 

필요한 데이터를 찾고 서로 연결하기도 하면서 데이터에서 인사이트를 찾아내는 것이다. 

 

그리고 새롭게 찾아낸 인사이트를 비즈니스에 적용해 회사가 나아갈 방향을 제시하기도 한다. 

의사결정권자의 이해를 돕기 위해 시각화 기술을 활용하고 패턴을 제공하기도 한다. 

 

이런 데이터 과학자가 되기 위해 필요한 역량은 무엇일까? 

 

기본적으로 프로그래밍 기술, 통계, 그리고 데이터 분석에 대한 전문적 지식을 가지고 있어야 한다. 

과학자로서 호기심을 가지고 새로운 가설을 만들고 검증할 수 있어야 한다. 

이를 위해 스토리텔링 능력과 패턴 및 알고리즘 구성, 시각화 기술도 필요하다. 

분석 대상이 되는 비즈니스에 대한 전문적 지식도 당연히 필요할 것이다. 

 

이렇게 보면 데이터 과학자는 빅데이터 분석에 있어 슈퍼맨과 같은 존재로 다가온다. 

이런 슈퍼맨을 정부 등 여기저기에서 대거 양성하겠다고 한다.

 

하지만 짧은 기간 내에 데이터 과학자를 키우는건 쉽지 않다. 

최소한의 프로그래밍, 수학, 통계학, 비즈니스에 대해 가르쳐야 하기 때문이다. 

수학과 통계학만 제대로 공부하는데 10년이 걸린다고 하는 이들도 있다.

 

프로그래밍 기술과 비즈니스 교육, 거기에 스토리텔링, 시각화, 분석 기술까지 가르쳐야 한다는걸 감안하면 쓸만한 데이터과학자 양성에는 정말이지 오랜 시간이 필요할 것이다.

 

하지만 빅데이터 분석이 십여년 후에 어떻게 변화할지는 아무도 모른다. 

기술 발달로 데이터 과학자 없이 누구나 쉽게 분석을 할 수 있는 상황이 될 수도 있을 것이다. 

다시 말해 데이터 과학자가 양성될 때까지 시장은 기다려 주지 않는다는 것이다. 

 

그런만큼, 다음과 같이 역할별로 세분화해서 빅데이터 인력 양성을 하는 것이 바람직하다는게 필자의 생각이다.

 

첫째, 빅데이터 개발을 수행할 수 있는 데이터 개발자 인력을 양성하는 것이다. 

실제로 국내에도 빅데이터와 관련된 개발을 할 수 있는 엔지니어는 많이 있다. 

기존 데이터를 처리하던 데이터웨어하우스(DW)나 비즈니스 인텔리전스(BI) 개발자들이 자연스럽게 데이터 개발자 영역으로 이동할 수 있다.  

데이터 마이닝이나 텍스트 데이터를 처리했던 개발자들도 있다. 

 

빅데이터 분석과 관련하여 등장한 새로운 기술 분야별로 개발자를 양성할 수도 있다. 

하둡(Hadoop), NoSQL, R, CEP(Complex Event Processing) 등 각 개발 언어나 플랫폼에 따라 개발자들을 늘려 나가면 될 것이다. 

 

프로젝트는 팀 단위로 이뤄질 것이므로 굳이 한 명의 개발자가 모든 툴을 다 다룰 필요는 없다. 

기존 자바(Java) 개발자들이 모바일이 대세가 되면서 안드로이드 개발자로 빠르게 이동한 것처럼 

빅데이터 분석이 더욱 활성화되면 자연스럽게 기존 개발자들이 데이터 개발자로 넘어 올 것이다. 

 

둘째, 데이터 개발자가 확보 되면 이제 빅데이터 분석이 가능한 분석 전문가 양성이 필요하다. 

데이터 개발자가 데이터를 가지고 프로그램을 직접 만드는 인력이라고 한다면, 

분석 전문가는 여러 가지 데이터들을 활용해서 각종 비즈니스 질문에 해답을 제시할 수 있는 이들이다.

 

데이터 개발자는 사용하는 툴이나 언어, 플랫폼에 따라 다양한 분야로 나눌 수 있지만, 

분석 전문가는 다음과 같이 네가지 분야별로 구분해서 양성하면 좋을 것 같다. 

 

1. 비즈니스 분석 전문가 

빅데이터 분석을 하기 위해서는 비즈니스에 대한 이해가 반드시 필요하다.  

비즈니스를 이해하는 인력은 별도로 양성하기보다 기존의 인력을 충분히 활용할 수 있을 것이다.

 

새로운 사업 계획을 세우고 목표 도달 여부를 평가하기 위해서 엑셀과 같은 툴을 활용하는 인력들이 일반적으로 회사 내부에 있을 것이다. 

임원이나 의사결정권자의 비즈니스 관련 질문에 적절한 해답을 제공하던 인력도 있을 것이다. 

 

이런 역할을 수행하던 영업, 마케팅, 회계 담당 인력들이 바로 비즈니스 분석 전문가 후보가 될 수 있다. 

실제 비즈니스 분석 전문가는 외부에서 찾기 보다 내부에 있는 호기심 많은 인재를 찾아 양성하는 것이 바람직하다. 

 

2. 데이터 분석 전문가 

데이터 분석 전문가는 비즈니스와 IT의 중간 영역이라 할 수 있다. 

데이터 개발자에게 프로그래밍에 대한 방향을 제시하고, 비즈니스 분석 전문가와 함께 분석으로 도출된 인사이트에 대해 협의하기도 한다. 

 

데이터 분석 전문가가 하는 주요 작업은 데이터에 접근해서 이를 문서화하고 정리하는 것이다. 

이를 통해 현업 담당자들이 필요한 정보를 빨리 찾고 활용할 수 있도록 한다. 

데이터 분석 전문가는 데이터 포맷, 저장, 삭제, 보안 등을 담당한다고 보면 된다. 

최근 이슈가 되고 있는 개인정보보호 관련 정책도 데이터 분석 전문가를 통해서 구성할 수 있다. 

 

3. 통계 전문가 

통계 전문가는 수학과 통계학을 이해하고 데이터 마이닝 활용 방법을 알고 있는 인력이다. 

프로그래밍 정도는 아니지만 SQL이나 R을 사용해 데이터를 다룰 수 있어야 한다. 

 

통계 전문가에게 가장 중요한 작업은 바로 모델링이다. 

데이터 모델링을 통해서 비즈니스 인사이트를 도출하고, 데이터의 연관 관계와 같은 분석을 위한 알고리즘을 제시해야 한다. 

 

빅데이터 분석에서 언급하는 수많은 데이터에서 놓칠 수 있는 정보를 찾아주는 것이 바로 통계 전문가라 할 수 있다. 

이들에겐 데이터 분석 전문가가 모아둔 데이터에 대한 모델링을 할 수 있는 수학적, 통계학적 능력이 필요하다.

 

4. 데이터 과학자 

데이터 과학자는 오케스트라의 지휘자라고도 한다. 

앞서 설명한 데이터 개발자, 비즈니스 분석 전문가, 통계 전문가 역할을 모두 할 수 있는 것이 바로 데이터 과학자이다. 

 

실제 빅데이터 분석 프로젝트 팀을 이런 데이터 과학자들로만 구성할 필요는 없다. 

한 명의 데이터 과학자 지휘 아래 개발자들, 비즈니스 분석 전문가, 데이터 분석 전문가, 통계 전문가가 한 팀을 이루면 된다. 

데이터 과학자가 한 명도 없다면 다른 개발자나 분석 전문가들 중에서 가장 창의력이 뛰어난 인재를 중심으로 팀을 구성하면 된다. 

 

빅데이터 분석의 중요성이 높아질수록 데이터 과학자들이 많이 필요할 것이다. 

또 데이터 과학자를 얼마나 보유하고 있는지가 향후 빅데이터 분석의 경쟁력이 될 것은 분명하다. 

 

그러나 데이터 과학자를 바로 양성하려는 욕심을 부리지는 말자. 

데이터 개발자, 비즈니스 분석 전문가, 데이터 분석 전문가, 통계 전문가를 단계적으로 양성해 나가는 것이 더욱 필요하다.  

 

이렇게 빅데이터 분석 인력을 세분화해 양성하고 프로젝트 팀을 구성하면 빅데이터 분석을 좀 더 빨리 수행할 수 있을 것이다. 

그리고 각 담당자들이 상호 보완적으로 협력한다면, 시간이 가면서 진정한 데이터 과학자로 성장해 나가지 않을까 싶다.





Trackback 0 And Comment 0

개인정보와 빅데이터가 충돌하지 않게 하는 방법

|



"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다."


최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 

비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 

 

빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 

많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 

 

특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 

고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다.

 

그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까?

 

먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한다. 

 

기존 보안 매커니즘은 정형화된 데이터를 위해 설계됐기 때문에 비정형 데이터를 분산환경에서 대량으로 처리하는 빅데이터를 위한 보안 메커니즘을 새롭게 적용할 필요가 있다. 

 

빅데이터 분석에 가장 많이 사용하는 하둡(Hadoop)의 경우 허가(Authorization)와 인증(Authentication)을 제공한다. 

허가는 사용자에게 권한을 부여하는 것이고, 인증은 사용자 자격을 검증하기 위해 사용한다. 

특히 하둡 1.0부터 네트워크상에서 인증과 통신 암호화를 통해 보안성을 확보하는 알고리즘인 커버로스(Kerberos)를 지원하고 있다. 

 

하둡과 같은 빅데이터 처리 기술들은 분산 환경이기 때문에 분산 서버들 간 통신 보안도 추가로 고려해야 한다. 

 

하둡 맵리듀스는 맵(Map)과 리듀스(Reduce)가 반복적으로 수행하는데 이 과정에서 식별자인 키로 개인정보가 포함되어 사용될 수 있으므로 특히 주의해야 한다. 

 

요즘은 빅데이터를 저장하기 위해서 NoSQL과 같은 비관계형 데이터베이스를 주로 사용한다. 

기존 관계형 데이터베이스(RDBMS)는 많은 보안 이슈들이 오랜 기간 검증되었지만 새로운 기술인 NoSQL은 아직 보안 측면에서 부족한 것이 사실이다. 

 

NoSQL 관련 보안 처리는 NoSQL 자체에 의존하기 보다 개발하는 애플리케이션에서 수행하는 것이 바람직하다. 

개인정보와 같은 중요한 데이터는 애플리케이션에서 암호화해서 저장하는 것이 필요하다. 

특히 각 NoSQL마다 인증 방식이 다를 수 있기 때문에 인증 절차를 확인하고 개발하는 것이 중요하다. 

단순히 개발 편의성 때문에 별도 인증을 거치지 않는 것은 위험하다. 

 

빅데이터 분석시 개인정보보호를 위해 시작 단계부터 보안 관련 정책들을 미리 정해 놓는 것이 매우 중요하다. 

 

물론 이러한 보안 정책과 시스템이 갖춰져 있다고 개인정보보호 이슈가 완전히 사라지는 것은 아니다. 

최근 사건과 같이 내부 인력이 유출하는 정보는 어쩔 수 없다.

 

필자는 빅데이터 분석에서 개인정보를 아예 수집하지 않으면 어떨까 한다. 

수많은 데이터에서 유의미한 정보를 찾아내기 위해 개인별이 아닌 세분화된 그룹별로 분석을 하자는 것이다. 

 

이 경우 정보 수집 단계부터 개인 정보보다 연령대와 같이 특정 그룹단위로 저장하게 된다.  

개개인의 구분이 필요하면 기존 개인 정보가 아닌 자체 고유키를 생성해서 사용하면 된다. 

 

물론 개인정보를 수집하지 않으면 분석을 통해 개인별 맞춤형 서비스를 제공하기는 어려울 것이다. 

그러나 개인 정보 유출시 발생할 수 있는 손실과 위험성을 고려하면 이런 서비스가 과연 효과적인지 검토해 볼 필요가 있다. 

 

2012년 미국 할인 매장 업체인 타깃(Target)이 고등학생 딸을 둔 부모에게 유아용품 할인쿠폰을 보내서 거센 항의를 받고 사과한 사건이 있었다. 

임신한 여성이 할인 매장에서 구매하는 패턴을 분석해서 해당 쿠폰을 발송한 것이었다. 

 

하지만 실제로 여고생이 임신중이었고 부모도 모르는 딸의 임신 사실을 빅데이터 분석으로 알아낸 것이다. 

 

이 사례는 빅데이터 분석의 효과를 나타내고 있다. 

하지만 과연 이러한 분석이 비즈니스 마케팅으로서 효과적일까? 

 

오히려 기저귀 판매량이 증가하면 맥주 판매량도 함께 늘어난다는 분석을 바탕으로 기저귀와 맥주를 함께 진열한 월마트(walmart)의 사례가 비즈니스에 보다 도움이 되지 않을까 싶다.

 

즉, 빅데이터 분석의 본질로 돌아가면 개인정보 보호와 같은 이슈도 좀더 유연하게 해결이 가능해 보인다.

 

일련의 개인 정보 유출 사건들은 빅데이터 분석 활성화에 좋지 않은 영향을 줄 수 있다. 

하지만 개인정보 이슈 때문에 빅데이터 분석을 포기하는 것은 구더기 무서워 장 못 담그는 것과 마찬가지이다. 

 

오히려 빅데이터 실시간 분석을 활용해서 개인정보보호와 같은 실시간 보안 분석도 가능해질 것이다. 

서로 지혜를 모아서 빅데이터 분석과 개인정보보호라는 상관관계를 풀어나가야 할 시점이라고 본다. 





Trackback 0 And Comment 0

모바일앱 분석으로 매출에 영향을 줄 수 있을까?

|



"본 글은 2014년 1월 9일 지디넷코리아에 기고한 칼럼입니다."


"집에 책이 많으면 아이의 학교 성적이 좋은가?"와 같은 질문을 던지면 통계학에서 쓰이는 회귀 분석은 적절한 대답을 내놓지 않는다. 

하지만 그와 약간 다른 질문에는 답을 해줄 수 있다. 예를 들면 다음과 같은 질문이다. 

"집에 책이 많은 아이는 집에 책이 전혀 없는 아이보다 공부를 더 잘하는 경향이 있는가?" 


스티븐 레빗(Steven Levitt)이 쓴 "괴짜 경제학"에 나오는 이야기이다.  

두 질문의 차이는 무엇일까? 

전자는 원인과 결과를 묻는 인과관계(Causality)에 대한 질문이다. 

후자는 둘 사이의 관련이 있는지를 알고자 하는 상관관계(Correlation)를 나타낸다. 

 

분석을 통해 상관관계를 쉽게 찾을 수 있으므로 두번째 질문에 답을 해줄수 있다. 

반면 인과관계를 찾는 것은 쉽지 않다. 

 

상관관계와 인과관계는 다음과 같이 설명할 수 있다.

 

아이스크림 판매량과 익사사고 발생의 관계를 살펴보면 강력한 양의 상관관계가 있다. 

즉 아이스크림이 많이 팔릴 때 익사사고가 많이 발생하고 반대로 아이스크림이 적게 팔릴 때 익사사고가 덜 일어난다. 


아이스크림을 못 팔게 하면 익사사고가 일어나지 않을까?  

당연히 그렇지 않다. 

다시 말해 아이스크림 판매량과 익사사고 발생은 상관관계는 있지만 인과관계는 아니다.  

결론적으로 둘 사이의 상관관계에는 다른 원인 요소가 있다. 

 

바로 기온의 변화가 원인 요소(Causal Factor)라 할 수 있다. 

날씨가 더워졌기 때문에 아이스크림이 많이 팔리고 익사사고가 더 발생하게 된 것이다.

 

그렇다면 왜 분석에서 상관관계나 인과관계가 중요할까? 

보통 상관관계를 찾아내면 앞으로의 미래를 예측할 수 있다.

아이스크림 판매량이 증가하고 있다면 물에 빠져 죽는 비율이 높아질 것을 알수 있게된다. 

 

기존 분석이 과거 데이터를 리포팅하거나 현재 상태를 모니터링하는 것이었다면 

최근 분석 트렌드는 미래를 예측하는 방향으로 옮겨가고 있으므로 상관관계를 파악하는 것은 매우 중요하다. 

 

상관관계를 파악하기 위한 상관분석(Correlation Analysis)은 두가지 요소들이 어떤 관계를 갖고 있는지를 분석하는 방법이다. 

상관분석을 위해서는 피어슨 상관계수나 스피어만 상관계수를 통해 두 요소들의 연관된 정도를 파악할 수 있다. 

회귀 분석(Regression Analysis)을 통해 두 요소들의 변화하는 과정을 살펴 상관 관계를 확인하기도 한다. 

 

그렇다면 인과관계는 분석에서 어떤 의미를 가질까? 

 

인과관계를 찾아내면 앞으로를 예측하는 것 뿐만 아니라, 미래를 변화시킬 수 있게 된다. 

위 사례를 예로 들면, 여름철 기온을 낮출 수 있다면 익사사고를 줄일 수 있을 것이다. 

 

하지만 앞서 이야기한 것과 같이 분석에서 인과관계를 찾아내는 것은 쉽지 않다. 

먼저 상관관계를 파악한 후 원인 요소를 가정해서 A/B 테스트, 스플릿 테스트 등을 통해 인과관계를 알아내야 한다.

 

필자가 진행하고 있는 모바일 분석에서도 이러한 상관관계 분석을 활용한다. 

실제로 시간대 분포가 사용자 수와 상관 관계가 있는지 분석해 보기도 했다. 

둘 사이의 상관관계가 있는 모바일 앱은 특정 시간대에 프로모션이나 이벤트를 진행함으로써 보다 많은 사용자의 참여를 이끌어 낼 수 있었다. 

 

이외에도 기간 대비 사용자 수의 증감에 대해 상관계수를 통한 연관 관계를 파악한다면 다음달에는 몇명의 사용자가 증가할 것임을 예측할 수 있게 된다. 

 

모바일 분석에서 인과관계는 다음과 같이 활용할 수 있을 듯 하다. 

 

예를 들어, 처음 모바일 앱을 다운로드한 사용자가 20분이상 사용할 경우 

해당 사용자가 한달안에 결제할 확률이 증가한다는 것을 인과관계로 찾아냈다고 가정하자. 

이런 인과관계를 파악했다면, 처음 다운로드한 사용자가 앱을 오래 사용하도록 만들면 매출이 증가하게 될 것이다. 

 

이에 따라 모바일 마케팅도 앱을 다운로드하는 것에서 최초 사용자들이 20분 이상 사용하도록 만드는 형태로 변화될 것이다. 

상관관계와 인과관계를 바탕으로 분석을 수행한다면 진정한 빅데이터의 가치를 확인 할 수 있을 것이다. 





Trackback 0 And Comment 0

비즈니스 프렌들리한 빅데이터 분석의 조건

|



"본 글은 2013년 12월 5일 지디넷코리아에 기고한 칼럼입니다."


빅데이터 분석에 관심이 높아짐에 따라 '플라이 블라인드'(Fly Blind)라는 표현을 많이 사용한다.  

앞이 안 보이는 채로 비행한다는 것이데, 비즈니스에선 데이터 분석 보단 단순히 직관에 의존해 업무을 처리하는 걸 뜻한다.

 

좋은 시나리오 작가와 유명 배우들 그리고 훌륭한 감독을 선정해 블록버스터 영화를 만든 다음, 

충분한 시장조사와 사전 분석 없이 대박을 기대하면서 전 세계에 상영하는 것과 비슷하다 할 수 있다. 

반면 빅데이터 분석은 주로 TV 시트콤에 비유된다. 

시트콤은 시청자들의 피드백에 따라 시나리오나 인물 캐릭터가 변화한다. 

매회 시청률 등을 분석해서 다음 회에 반영하는 방식이 쓰인다. 이게 바로 분석적인 접근이다.

 

처음 빅데이터 분석을 도입할 때 주요 목적은 비용 절감과 생산성 향상이었다. 

하지만 빅데이터 분석의 진정한 가치는 스마트한 의사결정, 성능 향상 그리고 전략적 목표를 달성하는데 있다. 

 

이러한 빅데이터 분석의 가치를 높이려면 어떻게 해야 할까?  

바로 분석의 KPI를 제대로 설정해야 한다. 

 

단순히 전체 고객 수, 월 매출만으로 스마트한 의사결정이나 전략적 목표를 달성할 수 없다. 

린 어낼리틱스(Lean Analytics)의 저자인 알리스테어 크롤(Alistair Croll)은 "행동 방식을 변화시킬 수 없다면 나쁜 통계"라고 했다. 

그는 비즈니스 사업 영역에 따라 각 단계별로 KPI를 적절하게 설정해야 한다고 강조한다. 


 

모바일 앱 비즈니스를 예로 들어보자.

 

초기 확장 단계에서는 많은 사용자를 확보하는 전략이 KPI가 되어야 한다. 

이에 앱 다운로드 수나 고객 획득 비용(CAC)와 같은 지표를 KPI로 설정하고 사업을 펼쳐야 한다. 

 

그러나 수익 단계에선 다르다. 단순히 사용자만 늘어나는 것 보다는 비용 대비 수익율을 높이는 것이 핵심 지표가 되어야 한다. 

고객 당 평균 매출(APRU)나 고객 생애 가치(LTV)와 같은 것을 KPI로 삼아야 할 것이다. 

고객 획득 비용과 고객 당 평균 매출를 비교할 필요도 있다.

 

매출을 올려야 하는 시점에서 고객 획득 비용이 고객당 매출보다 높다면 반드시 조정해야 하기 때문이다. 

 

이러한 KPI 설정을 통한 분석이 IT 관련 사업에만 적용할 수 있는 것은 아니다. 

 

필자가 근무하는 회사 주변에 한 중국 식당을 예로 들어보자. 

이 식당은 원래 퓨전 중국 음식점으로 시작했다가 최근  전통 중국 음식점으로 색깔을 바꿨다. 

주인 이야기로는 고객들이 퓨전 중국 음식을 낯설어해서 그랬다는데  며칠 전 가보니 오히려 이전보다 고객의 수가 줄어든 것을 볼 수 있었다. 

 

주인은 과연 어떤 분석을 기반으로 그러한 결정을 했을까?  

단순히 몇몇 아는 사람들의 평가만 듣고, 결정을 해버린건 아닐까? 

 

개인적으로는 퓨전 메뉴와 전통 메뉴를 놓고 A/B 테스트를 진행한뒤 각각의 매출 분석을 하고 의사결정을 했으면 하는 생각이 들었다. 

그랬다면 실내 인테리어부터 바꾸는 잘못된 판단으로 비용을 낭비하지 않았을 것이다.

 

결론적으로 빅데이터 분석을 통해 실제 비즈니스를 활성화하고 촉진하고자 한다면,  

분석의 KPI를 현재 상황에 따라 정확하게 설정하고 확인해 나가는 것이 중요하다고 본다. 





Trackback 0 And Comment 0

빅데이터 분석의 성공 열쇠~

|



"본 글은 2013년 9월 5일 씨넷코리아에 기고한 칼럼입니다."


빅데이터에 대한 관심이 높아지면서 대기업 뿐만 아니라, 미래창조과학부, 서울시 등 정부기관도 

빅데이터 분석 기술과 관련된 분야에 적극적인 투자를 하고 있는 듯 합니다. 


매일일보의 김창성 기자님이 정리한 "빅데이터 시대 도래, 성공 열쇠는"이란 기사를 보면  

빅데이터에 대한 필요성은 인식하고 있지만, 성과에 대한 불확실성 등으로 인한 문제점들을 잘 지적한 것 같습니다. 

이런 문제점을 해결하기 위해 빅데이터 분석의 성공에 대한 핵심이 무엇인지 제 나름대로 생각을 정리해 봤습니다. 



빅데이터 분석은 One-Time Project가 아니다.


빅데이터 분석은 한번 구축하면 되는 SI 프로젝트가 아닙니다. 

빅데이터 분석은 장기간에 걸친 시간, 돈, 전문지식의 투자로 생각해야 합니다. 

다시말하면, 오랜 기간동안 데이터를 자산으로 만들고, 분석을 위한 인프라를 구축해야 하는 것입니다. 


그렇다면 왜 이렇게 거대한 투자를 해야 하는가? 

빅데이터 분석은 매우 빠르게 변화하는 환경에 대처하기 위한 가장 효과적인 관리방법이기 때문입니다. 

즉, Change Management(변경관리)의 활동으로서 빅데이터 분석을 바라봐야 합니다.

 

또한 제가 빅데이터에서의 Analytics의 정의 에서 이야기한 것처럼, 

넓은 의미의 빅데이터 분석을 통해 최종 목표인 비즈니스를 보다 활성화시킬 수 있습니다.

그러기 위해서 데이터에서 인사이트를 찾는 것에서 그치지 않고, 실행에 옮겨서 실제로 가시적인 효과를 만들어 내야 합니다. 


이제는 빅데이터의 필요성에 대해서는 모두 공감하는 분위기 입니다. 

그렇다면 실제로 빅데이터를 통해 비즈니스에서 성과를 낼 수 있는 방법이 필요하다고 봅니다. 

그럴때 빅데이터가 순간순간 유행하는 Buzzword가 아닌 진정한 기술로 거듭나지 않을까 합니다. 


빅데이터의 성공 요소 


그렇다면 이런 빅데이터 분석의 성공 요소는 어떤 것이 있을까요? 

개인적으로 빅데이터 분석과 관련된 기술은 별로 중요하지 않다고 봅니다. 

왜냐하면 분석 툴이나 빅데이터 관련 기술들은 학습해서 적용하는데는 그리 오랜 시간이 걸리지 않기 때문입니다. 


인재 양성


현재 빅데이터 분석과 관련하여 가장 많이 이야기하는 부분이 바로 빅데이터 인재 양성입니다. 

제가 생각해도 빅데이터 분석을 할 수 있는 인력이 가장 먼저 필요하다고 봅니다. 

여기서 인재는 빅데이터 분석 툴을 다룰 줄 아는 사람이 아닙니다. 

솔직히 기술적 스킬이 높은 사람보다는 IT를 이해하면서 수학, 통계학에 대한 지식과 분석 능력을 갖춘 사람이 더 중요하기 때문입니다. 


또한 비즈니스와 관련된 용어로 대화를 할 수 있어야 합니다. 

대부분의 해당 비즈니스 전문가들은 IT를 잘 모르기 때문에, 기술적인 멘트보다는 각 비즈니스를 이해할 수 있는 열린 마음이 있어야 합니다. 

당연히 IT 기술에 대한 이해도 높아야 하고, 특정 기술이나 방법론에 치우지지 않아야 하는 것도 중요하겠죠. 


사고방식의 변화


다음으로 중요한 것이 바로 사고 방식을 바꿔야 합니다. 

제가 빅데이터 관련 강의를 할때마다 항상 하는 이야기가 있습니다. 


우리는 주어진 문제를 해결하는데 탁월한 능력이 있습니다. 

왜냐하면 어릴 때부터 문제를 푸는 교육을 계속 받아왔기 때문이죠. 

그래서인지 스스로 문제를 만들고 나서 해결하는 능력이 부족합니다. 


이 부분이 바로 빅데이터 분석에 있어서 가장 아쉬운 부분입니다.

빅데이터 분석은 수많은 데이터에서 놓칠 수 있는 숨겨진 의미를 찾아내는 것입니다. 

이를 위해서는 상상력을 동원한 수많은 가정들을 미리 만들고, 

빅데이터를 통해 테스트하고 검증하는 것이 필요하므로 먼저 사고 방식을 변경할 필요가 있습니다. 


이런 사고방식의 변화를 쉽게 접근하기 위해서는 우선 해답을 찾으려 하지 않고, 먼저 적절한 질문을 만들어 보는 방법이 좋다고 합니다. 


사고방식의 변화와 관련해서 한가지 중요한 점이 더 있습니다. 

의사결정에 숨어있는 함정들에서 정리한 것과 같이 데이터에 의한 의사결정보다 직관적인 결정을 내리는 경우가 더 많습니다. 

특히 중요한 의사결정일수록 이러한 경향이 더욱 높다고 합니다. 


빅데이터 시대에는 데이터 분석으로 얻어낸 결과를 실제 비즈니스에 적용하는 것이 매우 중요하다고 앞서 이야기했습니다. 

그러므로 의사결정에 있어서 감각적이고 직관적인 결정보다는 데이터에 기반한 결정을 할 수 있는 문화가 중요하다고 할 수 있습니다. 


빅데이터를 위한 조직과 프로세스


빅데이터 성공을 위한 요소로 조직과 프로세스도 이야기할 수 있습니다. 

앞서 빅데이터 분석을 위한 인재의 중요성을 이야기 했지만, 한두명의 분석 전문가로 할 수 있는 것은 별로 없을지도 모릅니다. 


오히려 빅데이터 분석을 위한 센터를 구성하고, 

각 비즈니스 팀에도 분석 전문가를 배치해서 전략을 수립하고 개발, 마케팅, 판매를 진행하는 것이 바람직합니다. 


또한 빅데이터 분석을 한다는 것은 빠르게 변화 환경에 대처할 수 있다는 것이므로

개발 환경도 애자일 방법론과 같이 프로토타이핑을 통해 빨리 확인하고 수정할 수 있는 프로세스를 가지고 있어야 할 것입니다. 

전통적인 폭포수 모델과 같은 프로세스는 빅데이터 분석의 결과를 실행에 옮기는데 제약이 있기 때문이죠. 


마치면서


위에서 이야기한 인재 양성, 사고방식 변화, 조직과 프로세가 갖춰지고 나서 데이터와 관련 기술, 아키텍처들을 이야기 하는 것이 바람직하지 않을까 생각합니다. 

해외 사례를 보더라도 배치 처리를 위해서는 Hadoop을 사용하고, 

스트림데이터를 실시간으로 처리하기 위해 CEP(Complex Event Processing)을 사용하는 등 기술은 필요에 따라 골라서 활용하면 되기 때문입니다. 

전문가들은 빅데이터 분석은 IT를 넘어서 헬스케어, CRM, 제품 생산 등 각 분야로 확대되어 갈 것으로 예상하고 있습니다.  

이러한 빅데이터 분석의 성공을 위해서 어떤 것을 먼저 준비해야 할지 정리해 봤습니다. 





Trackback 0 And Comment 0

데이터 분석(Analytics)의 가치는 어느 정도일까?

|



더 나은 의사결정의 효과를 어떻게 측정할 수 있을까요? 

데이터 통합에 따른 가치 창출 효과는 어떨까요?

고객의 행동패턴 분석을 통한 인사이트 발굴의 가치는 어떻게 계산할까요?  

이와같이 대부분의 분석의 가치는 유형이 아닌 무형 자산이기 때문에 측정하는 것 자체가 쉽지 않습니다. 


하지만 분석 전문가들에 따르면, 분석은 비즈니스를 수행하는데 있어, 경쟁 우위를 선점하기 위한 필수 사항이라고 이야기 하고 있습니다.  

실제로 제품을 개선하고, 프로세스를 최적화하고, 성과를 측정하고, 파트너를 관리하고, 변화에 빠르게 대응하기 위해서 Analytics를 사용하고 있다고 합니다. 


분석을 처음 도입할 때의 주 목적은 비용 절감과 생산성 향상이었다고 합니다.  

국내에서도 여러 개의 모바일 게임을 개발하는 업체들과 이야기를 해봤는데요. 

각 게임별로 통계를 각자 처리하기 때문에, 서비스 하는 게임 수만큼 비용이 낭비되고 있었습니다. 

통합적으로 통계를 관리할 수 있다면, 이런 비용들은 쉽게 절감될 수 있을 것입니다. 


그러나 진정한 분석의 가치는 스마트한 의사결정, 성능 향상, 그리고 전략적 목표를 달성하는데 있다고 볼 수 있습니다. 

이러한 내용은 징가의 사례를 통한 분석의 가치에서도 이야기 했었습니다. 


또한 분석을 통해서 과거 일에 대한 대응(Reactiving)에서 선제 대응(Proactiving)으로 전환할 수 있습니다. 

다음 그림은 각각의 분석 카테고리가 어떤 역할을 하는지 잘 설명해 주고 있습니다. 


그리고 분석을 전략적인 목적으로 사용하는 것은 그 효과는 크지만 경우의 수가 많지 않습니다. 

만약 분석을 전사적으로 도입한다면 운영적인 측면에서도 분석을 적용해서 활용도를 높이는 부분도 필요할 것입니다. 

운영적인 측면에서 분석 활용은 파급효과는 조금 적더라도, 분석의 활용범위가 넓어지는 장점이 있기 때문입니다. 


마지막으로 단순히 분석 플랫폼을 도입한다고 해서 이런 가치들을 얻을 수 있는 것은 아닙니다. 

바로 분석을 적절하게 수행할 수 있도록 구축해야 하는데요. 

이런 부분에 대해서는 다음 기회에 다시 한번 정리하도록 하겠습니다. 






Trackback 0 And Comment 0
prev | 1 | 2 | next