이제 본격적으로 빅데이터 가치 창출을 위한 5단계의 프로세스를 살펴보기로 한다. 이것은 일반적인 빅데이터 분석 과정인 "데이터 획득 - 데이터 준비 - 데이터 분석 - 시각화 - 활용"을 의미한다. 데이터 획득 (Acquire) 데이터 획득은은 단순히 데이터를 수집하는 것만을 의미하지 않는다. 먼저 데이터 셋을 명확하게 정의해야 한다. 어떤 데이터들이 있고, 해당 데이터의 특성이 무엇인지를 명확하게 설정해야 한다. 그리고 나서 데이터를 검색해보거나 쿼리를 할 수 있어야 한다. 개인적으로는 이 단계에서 데이터 속성을 파악하는 것이 중요하다고 생각한다. 데이터에 어떤 항목들이 포함되어 있고, 그것이 무엇을 의미하는 지를 알아야 올바른 가설 또는 문제를 정의할 수 있다. 데이터 준비 (Prepare) 데이터 ..
2015년 국가인적자원개발컨소시엄 지원사업으로 빅데이터 분석 관련 무료 교육이 진행될 예정입니다. 7월 8일(수) ~ 7월 10일(금) 까지 DMC 첨단산업센터에서 진행합니다. 1일차에는 빅데이터 분석의 필요성과 개념, 비즈니스에 적용 사례 등을 중심으로 살펴볼 계획이고2일차에는 빅데이터 분석을 위한 관련 기술들을 다뤄볼 생각입니다. 그리고 마지막 3일차에는 실제 빅데이터 분석을 어떻게 진행하는지, 어떤 방법이 더 나은 것인지 몇가지 주제를 정해서 함께 논의하면서 진행해 보려고 합니다. 정식 과정명은 "오픈소스를 활용한 빅데이터 분석 (Data Science & Analytics)"이고, 제가 강의를 진행합니다. 단순히 Hadoop이나 R 사용법만 교육하는 기존의 빅데이터 강의에서 벗어나 수강하시는 분들..
분석을 하면서 "몬테카를로 시뮬레이션"을 한번쯤은 들어봤을 것이다. 몬테카를로는 무작위 값을 활용하여 확률적으로 계산하는 알고리즘을 이야기한다. 이렇게 확률적으로 계산함으로써 원하는 수치의 확률적 분포를 구할 수 있게 된다. 이를 위해 많은 수의 실험을 바탕으로 한 통계를 이용해 확률적 분포를 알게 되므로, 이것을 바로 몬테카를로 시뮬레이션이라고 한다. 몬테카를로 시뮬레이션 개념 몬테카를로는 통계 자료가 많고 입력값의 분포가 고를수록 정밀하게 시뮬레이션 할 수 있다. 그래서 컴퓨터를 이용해 시뮬레이션을 주로 한다. 또한 이론적 배경이나 복잡한 수식으로 계산해야 하는 경우, 근사치를 계산하기 위해서도 몬테카를로를 많이 사용한다. 몬테카를로 시뮬레이션은 모나코의 유명한 도박 도시이름을 따서 만들었다고 한다...
러시아의 사상가인 이사야 벌린은 사람을 "고슴도치"와 "여우"의 두 가지 유형으로 분류했다. 여우는 여러 가지 목적을 동시에 추구하면서 세상의 복잡한 면면을 두루 다룬다. 그래서 오지랖 넓게 여기 저기 기웃거리는 사람이라 할 수 있다. 반면, 고슴도치는 복잡한 세계를 단 하나의 체계적인 개념이나 기본 원리로 단순화 시킨다. 그래서 하나의 원리를 향해 외곬으로 나아가는 사람이라 할 수 있다. 원래 고슴도치와 여우는 라틴어 격언에서 시작한다. 여우는 많은 것을 알지만, 고슴도치는 큰 것 하나를 안다. (Multa novit vulpes, verum echinus unum magnum) 이사야 벌린은 톨스토이가 고슴도치 타입인지 여우 타입인지를 "전쟁과 평화"를 통해 살펴보았다고 한다. 그 결과 톨스토이는 고..
"본 글은 2014년 3월 12일 지디넷코리아에 기고한 칼럼입니다." 빅데이터에 관심이 있다면 데이터 과학자(Data Scientist)에 대해 들어 봤을 것이다. 성공적인 빅데이터 분석을 위해서 데이터 과학자들이 많이 필요하다고 한다. 데이터 과학자는 과연 어떤 역할을 할까? 2012년 하바드 비즈니스 스쿨에서 발표한 '데이터 과학자: 21세기 가장 멋진 직업'(Data Scientist: The Sexiest Job of the 21st Century)이란 자료를 보면 살펴보면 이에 대한 해답이 나와 있다. 데이터 과학자는 복잡하고 수많은 데이터를 구조화해서 분석이 가능하게 만든다. 필요한 데이터를 찾고 서로 연결하기도 하면서 데이터에서 인사이트를 찾아내는 것이다. 그리고 새롭게 찾아낸 인사이트를 비..
"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다." 최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다. 그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까? 먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한..
"본 글은 2014년 1월 9일 지디넷코리아에 기고한 칼럼입니다." "집에 책이 많으면 아이의 학교 성적이 좋은가?"와 같은 질문을 던지면 통계학에서 쓰이는 회귀 분석은 적절한 대답을 내놓지 않는다. 하지만 그와 약간 다른 질문에는 답을 해줄 수 있다. 예를 들면 다음과 같은 질문이다. "집에 책이 많은 아이는 집에 책이 전혀 없는 아이보다 공부를 더 잘하는 경향이 있는가?" 스티븐 레빗(Steven Levitt)이 쓴 "괴짜 경제학"에 나오는 이야기이다. 두 질문의 차이는 무엇일까? 전자는 원인과 결과를 묻는 인과관계(Causality)에 대한 질문이다. 후자는 둘 사이의 관련이 있는지를 알고자 하는 상관관계(Correlation)를 나타낸다. 분석을 통해 상관관계를 쉽게 찾을 수 있으므로 두번째 질문..
"본 글은 2013년 12월 5일 지디넷코리아에 기고한 칼럼입니다." 빅데이터 분석에 관심이 높아짐에 따라 '플라이 블라인드'(Fly Blind)라는 표현을 많이 사용한다. 앞이 안 보이는 채로 비행한다는 것이데, 비즈니스에선 데이터 분석 보단 단순히 직관에 의존해 업무을 처리하는 걸 뜻한다. 좋은 시나리오 작가와 유명 배우들 그리고 훌륭한 감독을 선정해 블록버스터 영화를 만든 다음, 충분한 시장조사와 사전 분석 없이 대박을 기대하면서 전 세계에 상영하는 것과 비슷하다 할 수 있다. 반면 빅데이터 분석은 주로 TV 시트콤에 비유된다. 시트콤은 시청자들의 피드백에 따라 시나리오나 인물 캐릭터가 변화한다. 매회 시청률 등을 분석해서 다음 회에 반영하는 방식이 쓰인다. 이게 바로 분석적인 접근이다. 처음 빅데..
"본 글은 2013년 9월 5일 씨넷코리아에 기고한 칼럼입니다." 빅데이터에 대한 관심이 높아지면서 대기업 뿐만 아니라, 미래창조과학부, 서울시 등 정부기관도 빅데이터 분석 기술과 관련된 분야에 적극적인 투자를 하고 있는 듯 합니다. 매일일보의 김창성 기자님이 정리한 "빅데이터 시대 도래, 성공 열쇠는"이란 기사를 보면 빅데이터에 대한 필요성은 인식하고 있지만, 성과에 대한 불확실성 등으로 인한 문제점들을 잘 지적한 것 같습니다. 이런 문제점을 해결하기 위해 빅데이터 분석의 성공에 대한 핵심이 무엇인지 제 나름대로 생각을 정리해 봤습니다. 빅데이터 분석은 One-Time Project가 아니다. 빅데이터 분석은 한번 구축하면 되는 SI 프로젝트가 아닙니다. 빅데이터 분석은 장기간에 걸친 시간, 돈, 전문..
더 나은 의사결정의 효과를 어떻게 측정할 수 있을까요? 데이터 통합에 따른 가치 창출 효과는 어떨까요? 고객의 행동패턴 분석을 통한 인사이트 발굴의 가치는 어떻게 계산할까요? 이와같이 대부분의 분석의 가치는 유형이 아닌 무형 자산이기 때문에 측정하는 것 자체가 쉽지 않습니다. 하지만 분석 전문가들에 따르면, 분석은 비즈니스를 수행하는데 있어, 경쟁 우위를 선점하기 위한 필수 사항이라고 이야기 하고 있습니다. 실제로 제품을 개선하고, 프로세스를 최적화하고, 성과를 측정하고, 파트너를 관리하고, 변화에 빠르게 대응하기 위해서 Analytics를 사용하고 있다고 합니다. 분석을 처음 도입할 때의 주 목적은 비용 절감과 생산성 향상이었다고 합니다. 국내에서도 여러 개의 모바일 게임을 개발하는 업체들과 이야기를 ..