빅데이터에서의 스토리텔링 빅데이터와 관련된 책들을 읽어보면서 현재까지 가장 아쉬움이 많이 남는 책이었습니다. 빅데이터로 세상의 변화를 읽어내기 위해서는 정보에서 데이터의 흐름을 찾아내는 즉, "스토리텔링"이 중요하다고 이야기 하고 있습니다. 데이터 그 자체에는 아무런 의미가 없지만 거기서 패턴과 스토리를 읽어낼 수 있다면, 그 데이터는 엘빈 토플러가 말한 무용지식에서 유용한 지식으로 바뀐다는 것이지요. 또한 수많은 데이터들이 만들어내는 무질서한 흐름 속에서 숨겨진 패턴을 발견하는 것이 빅데이터를 정말로 의미있고 가치 있게 만드는 작업이라고 하고 있습니다. 마지막으로 빅데이터 분석의 목적이 미래를 단순히 예측하는 데만 만족하지 말고 미래에 대응하고 미래 경쟁력을 확보하며 미래 자체를 창조하는 목적이 되어야..
지난번에 이산확률분포에 대한 개념과 기대치, 분산을 구하는 방법에 대해서 정리해 봤습니다. 이어서 이산확률분포에서 사용할 수 있는 선형변환과 독립관측에 대해 살펴보기로 하겠습니다. 선형변환기대치를 구할 때 슬롯머신을 예로 들었는데요. 만약 슬롯머신이 게임당 1불에서 2불로 오르고. 당첨금도 5배가 올랐다고 생각해 보죠.. 이 경우, 기대치를 구하기 위해서는 각 수익에 대한 확률분포를 만들고 다음 공식을 사용하면 됩니다. 혹시 처음본다고 느끼시는 분은 이산확률분포#1 - 기대 수준을 관리 글을 다시 읽어 보시기 바랍니다. ^^ X를 Y로만 바꾼 겁니다. ㅠㅠ 그런데 우리는 이미 기존의 수익 X와 기대치 E(X), 그리고 분산 Var(X)까지 값을 알고 있습니다. 처음부터 하나씩 계산하지 않고 이런 정보를 ..
빅데이터의 사례로 가장 많이 이야기하는 것이 바로 "Google 독감 트렌드"입니다. 구글에 집계된 검색어를 기반으로 세계 여러 국가의 독감 유행 수준에 대한 예상 수치를 제공하는 것인데요. 이를 기반으로 빅데이터에 대한 전략이 어떻게 만들어졌는지 한번 생각해 보기로 했습니다. 데이터 수집구글 검색어가 자동으로 구글의 서버에 쌓이게 되므로 데이터의 축적은 기본적으로 이루어졌을 것입니다. 또한 검색어는 시간에 따른 분포를 나타낸다는 점과 IP를 통한 위치를 파악할 수 있다는 것을 활용한 것이라 볼 수 있습니다. 즉, 검색어, 시간대, 그리고 위치 정보를 활용해서 독감 트렌드를 분석해 낸 것이죠. 먼저 독감(ILI - influenza likeness illness)과 관련된 키워드(ILI-related q..
확률분포위키피디아에 따르면 확률분포를 다음과 같이 정의하고 있습니다.확률분포(probability distribution)는 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 주사위를 던질거나 슬롯머신을 할 때 나올 수 있는 모든 가능성의 확률을 모아놓은 집합이 확률분포라고 할 수 있습니다. 다음 그림을 보면 주사위 두개를 던졌을 때 나올 수 있는 두 주사위의 합을 확률분포로 나타내고 있네요. 그러면 이를 수식으로는 어떻게 표현할까요? 정의를 다시 보면 "확률변수가 특정한 값을 가질 확률..." 이라고 되어 있습니다. 확률변수는 일반적으로 X나 Y와 같이 대문자로 표기합니다. 그리고 변수가 가질 수 있는 특정한 값은 x나 y처럼 소문자로 나타내죠.. 변수 X가 특정한 값 x를 가질 확률을 위..
처음 누군가 미생을 아느냐고 물었을 때, 선덕여왕에 나오는 미실궁주의 동생 미생을 이야기하는 줄 알았습니다. ㅠㅠ 다음 웹툰에 보니 미생이라는 바둑과 회사원의 생활을 연결시킨 만화가 있더군요. 영화로도 만들어진 "이끼"라는 작품을 쓴 윤태호 작가님이 썼다고 하는데요. 미생이란 말은 바둑 용어라고 하네요.. http://cartoon.media.daum.net/webtoon/view/miseng 지난 주말에 처음부터 읽어보면서 왜 이렇게 인기가 있는지 실감했습니다. 수많은 댓글처럼 사건 하나하나가 모두 경험해봤거나 느껴본 것들이었으니까요. 계약직 신입사원 "장그래"의 회사 적응을 다루면서도 오과장, 김대리 등 다양한 캐릭터를 통해 각 세대들의 입장도 잘 이야기 해주고 있었습니다. 특히 중간중간 나오는 촌철..