"본 글은 2015년 8월 11일 지디넷코리아에 기고한 칼럼입니다." 최근 데이터 분석에 대한 관심이 높아지면서, 공공뿐만 아니라 민간에서도 다양한 프로젝트가 많아지고 있는 추세다.빅데이터 프로젝트의 핵심은 데이터 규모와 관련된 것뿐만 아니라, 데이터를 분석해서 가치를 창출하고, 이를 기반으로 의사결정을 해 실제로 비즈니스에 활용하는데 있다. 데이터의 가치를 찾아내기 위해서는 끊임없이 가설을 세우고 지속적으로 검증하는 절차가 필요하다.즉, 데이터 분석은 이러한 작업을 반복적으로 수행하면서 결과를 만들어가는 과정에 초점을 맞춰야 한다. 그러나 실제 빅데이터 프로젝트를 수행하는 형태를 살펴보면, 기존의 SI 프로젝트처럼 진행하는 경우가 많다. 대규모 SI 프로젝트를 수행하듯 전체 아키텍처를 설계하고, 주..
러시아의 사상가인 이사야 벌린은 사람을 "고슴도치"와 "여우"의 두 가지 유형으로 분류했다. 여우는 여러 가지 목적을 동시에 추구하면서 세상의 복잡한 면면을 두루 다룬다. 그래서 오지랖 넓게 여기 저기 기웃거리는 사람이라 할 수 있다. 반면, 고슴도치는 복잡한 세계를 단 하나의 체계적인 개념이나 기본 원리로 단순화 시킨다. 그래서 하나의 원리를 향해 외곬으로 나아가는 사람이라 할 수 있다. 원래 고슴도치와 여우는 라틴어 격언에서 시작한다. 여우는 많은 것을 알지만, 고슴도치는 큰 것 하나를 안다. (Multa novit vulpes, verum echinus unum magnum) 이사야 벌린은 톨스토이가 고슴도치 타입인지 여우 타입인지를 "전쟁과 평화"를 통해 살펴보았다고 한다. 그 결과 톨스토이는 고..
"본 글은 2014년 3월 12일 지디넷코리아에 기고한 칼럼입니다." 빅데이터에 관심이 있다면 데이터 과학자(Data Scientist)에 대해 들어 봤을 것이다. 성공적인 빅데이터 분석을 위해서 데이터 과학자들이 많이 필요하다고 한다. 데이터 과학자는 과연 어떤 역할을 할까? 2012년 하바드 비즈니스 스쿨에서 발표한 '데이터 과학자: 21세기 가장 멋진 직업'(Data Scientist: The Sexiest Job of the 21st Century)이란 자료를 보면 살펴보면 이에 대한 해답이 나와 있다. 데이터 과학자는 복잡하고 수많은 데이터를 구조화해서 분석이 가능하게 만든다. 필요한 데이터를 찾고 서로 연결하기도 하면서 데이터에서 인사이트를 찾아내는 것이다. 그리고 새롭게 찾아낸 인사이트를 비..
"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다." 최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다. 그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까? 먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한..
"본 글은 2014년 1월 9일 지디넷코리아에 기고한 칼럼입니다." "집에 책이 많으면 아이의 학교 성적이 좋은가?"와 같은 질문을 던지면 통계학에서 쓰이는 회귀 분석은 적절한 대답을 내놓지 않는다. 하지만 그와 약간 다른 질문에는 답을 해줄 수 있다. 예를 들면 다음과 같은 질문이다. "집에 책이 많은 아이는 집에 책이 전혀 없는 아이보다 공부를 더 잘하는 경향이 있는가?" 스티븐 레빗(Steven Levitt)이 쓴 "괴짜 경제학"에 나오는 이야기이다. 두 질문의 차이는 무엇일까? 전자는 원인과 결과를 묻는 인과관계(Causality)에 대한 질문이다. 후자는 둘 사이의 관련이 있는지를 알고자 하는 상관관계(Correlation)를 나타낸다. 분석을 통해 상관관계를 쉽게 찾을 수 있으므로 두번째 질문..
"본 글은 2013년 12월 5일 지디넷코리아에 기고한 칼럼입니다." 빅데이터 분석에 관심이 높아짐에 따라 '플라이 블라인드'(Fly Blind)라는 표현을 많이 사용한다. 앞이 안 보이는 채로 비행한다는 것이데, 비즈니스에선 데이터 분석 보단 단순히 직관에 의존해 업무을 처리하는 걸 뜻한다. 좋은 시나리오 작가와 유명 배우들 그리고 훌륭한 감독을 선정해 블록버스터 영화를 만든 다음, 충분한 시장조사와 사전 분석 없이 대박을 기대하면서 전 세계에 상영하는 것과 비슷하다 할 수 있다. 반면 빅데이터 분석은 주로 TV 시트콤에 비유된다. 시트콤은 시청자들의 피드백에 따라 시나리오나 인물 캐릭터가 변화한다. 매회 시청률 등을 분석해서 다음 회에 반영하는 방식이 쓰인다. 이게 바로 분석적인 접근이다. 처음 빅데..
"본 글은 2013년 11월 12일 지디넷코리아에 기고한 칼럼입니다." 최근 빅데이터 분석에서 실시간(real-time) 처리에 대한 요구가 늘었다. 주요 빅데이터 기술로 널리 사용하는 하둡(Hadoop)은 배치 처리에 기반해, 하둡 맵리듀스 동작 시간을 최대한 줄일 수는 있어도 실시간 처리에는 한계가 있다. 빅데이터 분석은 그동안 처리하지 못했던 많은 데이터에서 의미있는 정보를 추출해 내는 것이므로 필자는 처음에만 해도 실시간 처리는 큰 의미가 없을 것으로 판단했던게 사실이다. 그러나 데이터 분석 컨설팅을 진행하면서 실시간 처리에 대한 요구가 꽤 높다는 것을 알게 됐다. 예를 들어, 새로운 모바일 앱을 출시했을 때 사용자 증가 추이를 바로 확인하거나 광고 프로모션을 진행한다면 실시간으로 광고 효과를 알..
"본 글은 2013년 10월 4일 씨넷코리아에 기고한 칼럼입니다." 일반적으로 시각화라는 것은 정보를 효율적으로 전달하기 위한 표현 기법을 의미한다. 빅데이터에서 말하는 데이터 시각화는 데이터를 분석한 결과물을 최종 사용자에게 효과적으로 전달하는 것을 의미한다. 사용자 입장에서 봤을 때 데이터 시각화가 갖는 의미는 무척 크다. Accenture 리포트에 따르면, 향후 20년 동안 데이터 기반 접근법이 모든 비즈니스에 적용될 것이라고 한다. 현재 IT 전문가나 데이터 전문가들을 위한 빅데이터 분석도 향후 누구나 쉽고 빠르게 필요한 정보에 접근할 수 있는 형태로 발전해 나갈 것으로 전망된다. 모든 사람들이 쉽고 빠르게 정보에 접근한다는 것은 바로 데이터 시각화와 관련된 문제다. 결국 향후 빅데이터 분석 플랫..
"본 글은 2013년 9월 5일 씨넷코리아에 기고한 칼럼입니다." 빅데이터에 대한 관심이 높아지면서 대기업 뿐만 아니라, 미래창조과학부, 서울시 등 정부기관도 빅데이터 분석 기술과 관련된 분야에 적극적인 투자를 하고 있는 듯 합니다. 매일일보의 김창성 기자님이 정리한 "빅데이터 시대 도래, 성공 열쇠는"이란 기사를 보면 빅데이터에 대한 필요성은 인식하고 있지만, 성과에 대한 불확실성 등으로 인한 문제점들을 잘 지적한 것 같습니다. 이런 문제점을 해결하기 위해 빅데이터 분석의 성공에 대한 핵심이 무엇인지 제 나름대로 생각을 정리해 봤습니다. 빅데이터 분석은 One-Time Project가 아니다. 빅데이터 분석은 한번 구축하면 되는 SI 프로젝트가 아닙니다. 빅데이터 분석은 장기간에 걸친 시간, 돈, 전문..
- Total
- Today
- Yesterday
- 맥
- 클라우드
- 분석
- 하둡
- 도서
- 자바스크립트
- 세미나
- mysql
- 통계
- 마케팅
- SCORM
- ms
- 디자인
- 애플
- 모바일
- XML
- fingra.ph
- 자바
- Hadoop
- 웹
- java
- r
- 빅데이터
- 구글
- 책
- HTML
- 아이폰
- 프로젝트
- 안드로이드
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |