"본 글은 2014년 1월 9일 지디넷코리아에 기고한 칼럼입니다." "집에 책이 많으면 아이의 학교 성적이 좋은가?"와 같은 질문을 던지면 통계학에서 쓰이는 회귀 분석은 적절한 대답을 내놓지 않는다. 하지만 그와 약간 다른 질문에는 답을 해줄 수 있다. 예를 들면 다음과 같은 질문이다. "집에 책이 많은 아이는 집에 책이 전혀 없는 아이보다 공부를 더 잘하는 경향이 있는가?" 스티븐 레빗(Steven Levitt)이 쓴 "괴짜 경제학"에 나오는 이야기이다. 두 질문의 차이는 무엇일까? 전자는 원인과 결과를 묻는 인과관계(Causality)에 대한 질문이다. 후자는 둘 사이의 관련이 있는지를 알고자 하는 상관관계(Correlation)를 나타낸다. 분석을 통해 상관관계를 쉽게 찾을 수 있으므로 두번째 질문..
네이버 블로그에 원격으로 글을 올릴 필요가 있어 찾아보니 글쓰기 API를 지원하고 있었습니다. API를 사용하기 위해 먼저 설정을 해야 합니다. "관리" 메뉴로 들어가서 "플러그인 연동 관리"의 "글쓰기 API설정"을 선택합니다. "글쓰기 API설정"에서 API 연결 암호를 발급받기만 하면 설정은 완료됩니다. 이제 API연결 URL, 아이디, API연결 암호를 가지고 XMLRPC로 원격 글쓰기를 만들면 됩니다. 찾아보니 원격 글쓰기를 위한 PHP 프로그래밍 소스는 많이 나오는데 JSP나 Java를 이용한 소스가 별로 없어서 간략하게 정리해서 올려봅니다. XMLRPC를 위한 Jar 파일은 아파치 사이트에서 다운받아서 사용해도 되고, 여기를 눌러서 바로 다운로드 해도 됩니다. 먼저 "아이디", "이름", "..
괴짜 경제학 (개정증보판) - 스티븐 레빗 외 지음, 안진환 옮김/웅진지식하우스(웅진닷컴) 미니 서평 윤리학은 이상세계를 반영하고, 경제학은 현실 세계를 반영한다. 괴짜 경제학을 살펴보면 사회적 통념에 대해 기존의 방식과 다르게 관찰하고 분석하는 것을 주로 이야기하고 있습니다. 교사의 부정행위를 확인하기 위해 1993년에서 2000년까지 연간 학년당 약 3만 명의 학생들이 제출한 70만 장의 답안지, 그리고 거의 1억 개 이상의 답을 비교 분석한다든지 스모 선수와 승률을 분석하기 위해 1989년 1월에서 2000년 1월까지 일본에서 가장 훌륭한 스모 선수들이 치렀던 모든 공식 경기의 결과, 즉 281명의 스모 선수들 사이에 있었던 약 3만 2,000건의 시합에 대한 데이터를 확인합니다. 요즘 말하는 빅데..
지난 11월 21일 삼성동 EMC 이펙트 데이 행사장에서 코스콤이 "빅데이터로 주가를 예측하다"라는 주제로 연초부터 진행해 온 주가예측분석 플랫폼과 활용 경험을 제시했다. 빅데이터 분석의 다양한 활용 분야 중 하나로 주식을 주목하고 있는 것이다. 기사에 따르면, 소셜 데이터를 통한 분석도 진행중이라고 한다. 기존 주식 데이터의 분석에 외부 환경을 고려한 소셜 데이터 분석은 좋은 아이디어라고 본다. 그리고 코스콤의 주가분석지수 'K-SMD12'는 국내외 증시 동향과 감성분석을 바탕으로 5일 미만의 단기예측을, 'K-SMD26'는 통계청 지표를 활용해 1개월, 6개월 이후 등 중기예측에 쓰인다고 한다. 하지만 위 제품을 검색해봐도 기사 내용 이외에는 나타나지 않아 실제 활용을 해볼 수 없다는 점과 더불어, ..
일리아스 통독: 2013.05.20 ~ 2013.12.08 일리아스는 호메로스의 대서사시 중 하나로 트로이 전쟁 중 일부를 다루고 있으며 전체적인 서사는 다음과 같습니다. 펠레우스의 아들 아킬레우스와 인간들의 왕 아가멤논의 논쟁 때문에 트로이 전쟁에 참여하지 않게 되고, 계속되는 전쟁 중에 서서히 아카이오이족이 밀리면서 아킬레우스를 대신해 전장에 나선 파트로클로스가 트로이의 영웅 헥토르에게 죽임을 당하고 이에 분노한 아킬레우스가 헥토르에게 복수를 한 후, 트로이 왕 프리아모스가 아들 헥토르의 시신을 찾아와 장례를 치루는 것으로 끝이 납니다. 어릴 적 트로이 전쟁을 동화책으로 재미있게 읽었었기 때문에 처음부터 흥미를 가지고 읽기 시작했는데요. 수많은 신과 영웅들, 그리고 다양한 수식어와 웅변하는 듯한 문체..
"본 글은 2013년 12월 5일 지디넷코리아에 기고한 칼럼입니다." 빅데이터 분석에 관심이 높아짐에 따라 '플라이 블라인드'(Fly Blind)라는 표현을 많이 사용한다. 앞이 안 보이는 채로 비행한다는 것이데, 비즈니스에선 데이터 분석 보단 단순히 직관에 의존해 업무을 처리하는 걸 뜻한다. 좋은 시나리오 작가와 유명 배우들 그리고 훌륭한 감독을 선정해 블록버스터 영화를 만든 다음, 충분한 시장조사와 사전 분석 없이 대박을 기대하면서 전 세계에 상영하는 것과 비슷하다 할 수 있다. 반면 빅데이터 분석은 주로 TV 시트콤에 비유된다. 시트콤은 시청자들의 피드백에 따라 시나리오나 인물 캐릭터가 변화한다. 매회 시청률 등을 분석해서 다음 회에 반영하는 방식이 쓰인다. 이게 바로 분석적인 접근이다. 처음 빅데..
린 스타트업 - 애시 모리아 지음, 위선주 옮김, 최환진 감수/한빛미디어(한빛아카데미) 미니 서평 반증 가능한 가설 = [구체적이고 반복 가능한 행동]을 하면 [측정 가능한 예상 결과]를 얻을 것이다. 에릭리스의 린 스타트업이 지속가능한 사업을 수행하기 위한 방법을 이야기 하고 있다면, 애시 모리아의 이 책은 실제 현업에서 어떻게 적용할 수 있는지를 단계별로 보여주고 있습니다. 이 책을 쓰는 과정이나 클라우드파이어라는 서비스를 만드는 과정을 통해 이야기함으로써 보다 쉽게 이해할 수 있었네요. 특히 비즈니스 모델을 위한 Nine Blocks를 기반으로 만든 린 캔버스는 바로 현업에 적용하기에도 유용한 듯 합니다. 이러한 린 캔버스는 실제 http://www.leanstack.com에 가면 무료로 활용할 수..
"본 글은 2013년 11월 12일 지디넷코리아에 기고한 칼럼입니다." 최근 빅데이터 분석에서 실시간(real-time) 처리에 대한 요구가 늘었다. 주요 빅데이터 기술로 널리 사용하는 하둡(Hadoop)은 배치 처리에 기반해, 하둡 맵리듀스 동작 시간을 최대한 줄일 수는 있어도 실시간 처리에는 한계가 있다. 빅데이터 분석은 그동안 처리하지 못했던 많은 데이터에서 의미있는 정보를 추출해 내는 것이므로 필자는 처음에만 해도 실시간 처리는 큰 의미가 없을 것으로 판단했던게 사실이다. 그러나 데이터 분석 컨설팅을 진행하면서 실시간 처리에 대한 요구가 꽤 높다는 것을 알게 됐다. 예를 들어, 새로운 모바일 앱을 출시했을 때 사용자 증가 추이를 바로 확인하거나 광고 프로모션을 진행한다면 실시간으로 광고 효과를 알..
린 캔버스에 대해서 다룬 비즈니스 모델을 위한 Nine Block에 대해 설명한 적이 있습니다. 또한 에릭 리스의 린 스타트업을 읽어보면, 지속가능한 비즈니스를 위해 만들기-측정-학습의 중요성을 이야기 하고 있죠. 결국 애자일 방법론처럼 빠른 개발을 하고, 고객의 피드백을 받아서 현재 사업 계획을 유지할지 다른 방향으로 전환할지를 끊임없이 고민해야 하는데요. 이럴때 기존 수십여장의 사업계획서는 한눈에 파악하기도 어렵고, 한번 수정하는데에도 많은 시간이 소요된다는 문제가 있습니다. 그래서 린 캔버스를 다시 살펴봤습니다. 애시모리아는 린 캔버스를 작성하는데 20분 이상을 걸리지 않아야 한다고 이야기 하고 있습니다. 사업계획서 역시 빠르게 만들고, 주변 사람들 그리고 고객들을 통해서 계속 검증하고 수정해 나가..
우분투에 R을 설치하기 위해 간단하게 apt-get을 사용하면 됩니다. $ sudo apt-get update $ sudo apt-get install r-base $ R 쉘에서 R을 입력하면 R 콘솔이 나타나게 됩니다. 기본적으로 R은 수많은 패키지를 사용할 수 있다는 장점이 있습니다. R 콘솔에서 다음과 같은 명령어로 필요한 패키지를 추가로 설치할 수 있습니다. > install.pakages("RMySQL") 그런데 패키지에 따라서 다음과 같은 오류 메시지가 나올 수 있는데요. Warning in install.packages : package ‘gplots’ is not available (for R version 2.14.1) 이때는 R 콘솔에서 쉘로 나가서 apt-get으로 찾아서 설치하면 됩..