두 변수 간의 통계적인 관계 측정 방식으로 사용하는 상관관계 측정으로 피어슨 상관계수, 스피어만 상관계수 등이 있다고 합니다. 피어슨 상관계수는 두 변수 X와 Y가 함께 변하는지와 따로 변하는지의 비율로 계산하는 것으로 가장 많이 사용된다고 합니다. X와 Y가 완전히 동일하면 +1, 완전히 다르면 0, 반대방향으로 동일하면 -1 값을 가진다고 하네요. 스피어만 상관계수는 자료의 값 대신 순위(랭킹)을 기준으로 상관관계를 계산하는 방식이라고 합니다. 이 값은 -1과 1 사이의 값을 가지는데, 두 변수의 순위가 완전히 일치하면 +1, 완전히 반대면 -1이 된다고 합니다. 스피어만 상관계수와 같이 순위를 기준으로 값을 측정하는 캔달의 타우도 있다고 하네요. 이번에 살펴볼 R 예제는 기온과 기압과 같은 시계열 ..
10월 30일 ~ 31일 사이에 삼성동 코엑스 인터콘티넨탈에서 진행된 GMV 2013에 참석했습니다. 글로벌 포럼, 전시회, 1:1 바이어 상담 등으로 진행되었는데요. 국내 뿐 아니라 해외 업체들의 반응을 확인할 수 있고, 글로벌 서비스를 위한 협의를 할 수 있는 좋은 기회였던 것 같습니다. 예전에는 주로 전시회 부스를 준비해서 참석했었는데.. 이번에는 1:1 바이어 상담을 중심으로 진행했습니다. 전시회 부스는 많은 사람들에게 보여줄 수 있다는 장점이 있지만 깊이있는 논의가 부족한 면이 있었는데, 1:1 미팅은 약 한시간 동안 미리 선정된 업체와 자유롭게 협의를 할 수 있어서 좋았습니다. 미국의 Sprint, 중국의 Vivo/Sohu.com/Insta Investment, 일본의 Hitachi, 콜롬비아..
현재 빅데이터 관련 기술로 Hadoop이 주로 활용되고 있습니다. 그러나 최근 실시간 처리에 대한 요구가 늘어나면서 점차 In-Memory 기술에 대한 관심도 증가하고 있습니다. 과거 실시간 처리를 위한 OLTP로서 데이터베이스를 주로 사용했지만, 빅데이터 환경에서는 빠르게 생성되는 데이터 스트림을 처리하기 위해서 새로운 접근법이 필요한 것이죠. 빅데이터 분석 기술에 대한 정리 에서도 Hadoop이외의 다른 기술들을 살펴보면서, 구글에서는 Dremel을 통해 짧은 시간내에 수많은 데이터를 처리하기도 한다고 이야기했었습니다. 처리하는 영역은 조금씩 다르지만 실시간이라는 이슈를 위해 주로 사용되는 기술들에 대해서 정리해 보도록 하겠습니다. Redis Redis는 "Remote dictionary System..
지난 23일 산업통상자원부 기술표준원 주최로 "Open Cloud & Open Standard" 컨퍼런스가 열렸습니다. 최근 이슈인 오픈 스택(Open Stack)의 Tom Fifield가 오픈 클라우드 및 표준화 사례에 대해 발표하고, 래드햇(Redhat)도 최신의 오픈 소스 기반 클라우드를 소개했네요. 컨퍼런스 마지막 세션으로 클라우드를 활용한 모바일 분석 플랫폼으로 핑그래프(Fingra.ph) 발표를 했습니다. 현재까지의 Fingra.ph 진행 과정과 향후 SAAS 플랫폼으로 발전할 방향에 대해서 공유하는 자리였습니다. 참석한 많은 분들이 격려해주고 글로벌로 성장하는 Fingra.ph를 응원해 주셔서 감사했습니다.
지난주 DEVIEW 2013을 다녀왔습니다. 구글, 링크드인, 넷플릭스에서 일하는 한국 개발자들이 자신의 업무를 바탕으로 세션을 발표하고, 현재 뜨고 있는 기술들이 실제 현업에서 어떻게 활용되고 있는지에 대한 이야기들이 좋았네요. DEVIEW 2013을 보면서 이와 같은 개발자 컨퍼런스가 더 많아지고 확대되면 좋겠다는 생각을 했네요. 행사 내용은 DEVIEW 2013 홈페이지를 참고하시고, 현장에서 찍은 사진들을 올려봅니다. 그리고 행사에서 나눠준 노트와 볼펜.. 이쁘네요. 중간에 롯데호텔에서 드라마 촬영을 하는 것 같더군요. 무슨 드라마인지는 모르겠지만 여배우는 알겠네요.. ^^
린 스타트업 - 에릭 리스 지음, 이창수.송우일 옮김/인사이트 미니 서평 스타트업은 독특한 아이디어를 바탕으로 열정과 패기로 사업을 진행해 나갑니다. 모두들 성공을 꿈꾸지만 약 32%가 창업 후 3~5년 사이에 사업을 그만둔다고 합니다. 10년 이상 하는 경우도 24.6%로 4명 중 1명만 살아남게 되는 것이죠. 정말 괜찮은 사업 아이템인 것 같아 큰 마음 먹고 시작했는데, 스타트업들은 왜 실패할 확률이 더 높은 걸까요? 에릭 리스의 린 스타트업에서는 여기에 대한 해답을 제시해줍니다. 물론 린 스타트업을 따라 했다고 반드시 성공을 보장받는 것은 아닙니다. 다만, 린 스타트업을 활용하면 지속 가능한 사업을 할 수 있는 기초가 된다는 것입니다. 이러한 근거는 바로 불확실성을 인정하고, 만들기-측정-학습의 순..
iOS의 UDID인 UIDevice uniqueIdentifier가 삭제될 것(deprecated)이라고 버전 5부터 공지했었습니다. 실제 iOS7이 최근 업데이트 되면서 UDID와 대안으로 사용하던 각종 디바이스의 고유키로 쓸 수 있는 정보들이 모두 막히면서 주변의 많은 분들이 고유키를 가져오는 방법에 대해서 문의를 하고 있어 간략하게 정리해 보기로 했습니다. 애플에서 UDID와 같은 디바이스의 고유키를 가져오는 방법을 iOS6 이후부터 두가지 형태로 제시하고 있습니다. UIDevice 클래스에 있는 IdentifierForVendor와 ASIdentifierManager 클래스의 advertisingIdentifier 입니다. IdentifierForVendor 알파벳과 숫자로 구성된 고유키를 제공하..
"본 글은 2013년 10월 4일 씨넷코리아에 기고한 칼럼입니다." 일반적으로 시각화라는 것은 정보를 효율적으로 전달하기 위한 표현 기법을 의미한다. 빅데이터에서 말하는 데이터 시각화는 데이터를 분석한 결과물을 최종 사용자에게 효과적으로 전달하는 것을 의미한다. 사용자 입장에서 봤을 때 데이터 시각화가 갖는 의미는 무척 크다. Accenture 리포트에 따르면, 향후 20년 동안 데이터 기반 접근법이 모든 비즈니스에 적용될 것이라고 한다. 현재 IT 전문가나 데이터 전문가들을 위한 빅데이터 분석도 향후 누구나 쉽고 빠르게 필요한 정보에 접근할 수 있는 형태로 발전해 나갈 것으로 전망된다. 모든 사람들이 쉽고 빠르게 정보에 접근한다는 것은 바로 데이터 시각화와 관련된 문제다. 결국 향후 빅데이터 분석 플랫..
미니 서평 팀 하포드(Tim Harford)의 "경제학 콘서트"는 영국의 경제학자인 데이비드 리카도(David Ricardo)의 "한계 토지"에서부터 시작해서 경제 전반의 이야기를 아주 명쾌하게 풀어나가고 있습니다. 이 책을 계속되는 논리를 파악하려면 먼저 리카도의 이론을 이해해야 하기에 1장에서 다음과 같이 설명하고 있습니다. 정착민들은 별로 없지만 기름진 목초지가 넓게 펼쳐진 미개척 지대를 상상해 보자. 어느 날 큰 포부를 지닌 액셀이란 젊은 농부가 이 마을에 와서는 돈을 내고 기름지 목초지를 빌려 곡식을 키워보겠다고 했다. 땅 주인들은 그 땅에서 곡식이 많이 수확될 것이라는 데에는 의견이 같았지만, 지대를 얼마나 받아야 할지 결정하기 어려웠다. 널린 게 땅인지라 지주들은 지대를 경쟁적으로 깍아주었고..