미니 서평 약팀이 강팀을 이기는 드라마 같은 스토리… 데이터에 기반해 문제를 해결해나가는 흥미진진함에 단숨에 읽어버렸다. 등장하는 선수들의 실제 메이저리그 성적을 확인해 볼 수 있다는 것도 하나의 재미요소다. 브래드 피트 주연의 영화로도 만들어진 이 책은 오클랜드 애슬레틱스의 빌리 빈 단장이 재정이 악화되어 트레이드를 할 수 밖에 없는 상황에서 통계 기반 세이버매트릭스를 활용하여 2002년 시즌을 성공적으로 만들어낸 실화를 바탕으로 하고 있다. 책을 보고 나면 야구에 대한 이해도가 높아진다. 예를 들면, 국내 프로야구도 2000년대 부터 OPS를 도입하기 시작했었다. 단순히 OPS가 "출루율 + 장타율"인 것만 알았다. 그러나 타율과 타점 보다 타자를 평가하는데, 정확하게는 경기를 승리하는데 기여하는 정..
미니 서평 이제는 사물인터넷 시대가 주목받고 있다. 모든 사물이 인터넷으로 연결되는 시대의 모습은 어떨까? 에릭슨에서 2012년 10월 공개한 영상을 보면, 주인공이 집안의 사물들과 메신저로 대화 하고, 각 사물들은 서로 의사소통하면서 집안 관리를 하는 것을 볼 수 있다. 스마트폰의 등장이 새로운 시장을 만든 것 이상으로 사물인터넷은 대규모의 매력적인 시장을 창출할 것으로 기대하고 있다. 헬스케어, 스마트홈, 보안, 육아 등 우리 생활 자체를 대상으로 하는 분야이기 때문이다. 그러나 PDA 시절의 모바일이 그랬듯이 사물인터넷도 애플이나 구글과 같은 플랫폼을 장악하는 벤더가 나올 때까지 많은 시행착오를 겪게 될 것이다. 빅데이터가 과거의 데이터웨어하우스, 데이터 마이닝에서 출발한 것처럼 사물인터넷도 유비쿼..
엑셀을 활용하여 선형 회귀 분석을 만드는 방법을 살펴봤다. 분산형 차트를 통해 선형 그래프를 그릴 수 있었다. 아래 그림을 보면, y= 0.002x - 0.6 이라는 수식이 보인다. 이것이 선형 회귀 분석에서 가장 필요로 하는 기본 수식이다. 선형 회귀 분석은 새로운 X 값이 주어졌을 때, Y 값을 예측하는 용도로 주로 사용한다. 위 예제는 "노출에 따른 클릭 수"로서 "만약 노출이 1500번 일어났다면, 클릭은 몇번 일어날까?" 같은 질문에 답을 줄 수 있다. 위 수식에서 x 대신 1500을 대입하면 된다. y = 0.002 x 1500 - 0.6 = 2.4 즉, 1500번 노출이 발생하면 2.4의 클릭이 일어날 것이라고 할 수 있다. 이런 수식을 선형 회귀 분석에서는 어떻게 구할까? "최소 자승법"이..
엑셀은 장부 정리와 같은 기본적인 스타일시트 툴로 잘 알려져 있지만, 분석(Analysis) 측면에서도 정말 괜찮은 프로그램이다. 오늘은 엑셀을 이용해서 선형 회귀 분석을 수행하는 방법을 정리해 보려고 한다. 선형 회귀 분석(Linear Regression)… 말이 어려워 보일 뿐, 중고등학교 시절 수학 시간에 배운 X축, Y축의 선형 그래프를 생각해 보면 된다. 엑셀로 선형 회귀 분석을 하기 위해서 간단한 데이터를 만들어 보자. 광고 노출과 클릭간의 관계를 살펴볼 수 있는 데이터를 가상으로 구성한다. (다음 글에서 실제 광고 노출/클릭 데이터를 가지고 회귀분석을 해 볼 계획이다.) 다음과 같은 결과를 만드는 것이 최종 목표이다. 분산형 차트 활용 먼저 엑셀에서 출력할 위 데이터를 모두 선택한 후, "삽..
IOPS는 단위 시간(1초) 동안 디스크로부터 Input/Output을 수행한 수치를 의미한다. 즉, 초당 입출력 횟수라 볼 수 있다. 기본적으로 HDD, SSD, SAN 같은 컴퓨터 저장장치를 벤치마크 하는 데 사용하는 성능 측정 단위이기도 하다. IOPS는 Iometer, IOzone, FIO 등 응용프로그램으로 측정할 수 있다고 한다. IOPS를 구할 수 있는 기본 수식은 다음과 같다. IOPS = 1000 / (Average Read Seek Time + (Maximum Rotational Latency / 2)) 디스크를 읽고 쓰기 위해서 "탐색 시간 + 회전 대기 시간"이 필요하다. 이런 평균 탐색 시간을 구하고, 회전 대기 시간은 최대 값을 구해서 2로 나누는 방식으로 평균 회전 대기시간을 ..
IE 9의 개발자 도구(F12) 이슈 웹 개발에서 브라우저 호환성은 중요한 이슈다. 특히, 인터넷 익스플로러(IE)는 웹 표준에 대한 이슈가 꾸준히 제기되고 있다. 최근 프로젝트를 진행하면서, IE9 브라우저 사용자가 특정 메뉴에 접속할 때, 화면이 나타나지 않는 경우가 있었다. HTML 소스를 다른 페이지의 HTML과 비교해도 차이는 없었다. 한가지 특이한 사항은, 디버깅하려고 개발자 도구에 접속면 페이지가 정상적으로 나온다는 점이었다. 분명 개발자 도구와 관련이 있는 것이라고 판단했다. 문제의 원인은 바로 console.log() 함수였다. IE9 브라우저에서 console.log()를 인식하지 못해, 자바스크립트 오류가 발생한 것이다. 예전에는, 자바스크립트 디버깅을 위해 alert() 함수를 주로..
미니 서평 "말과 글은 마음의 작용, 생각의 산물이다" 산고(産苦)의 아픔없이 글을 쓰고 있었던 건 아닐까? 이공계이므로 글쓰는 자체로 충분하다고 자족한 듯하다. 저자는 말한다. "'글 쓰는 것'과 '글 고치는 것'은 동전의 양면처럼 나눌 수 없다"고― 일필휘지(一筆揮之)로 완성하는 것이 아니라, 고치고 또 고쳐야 좋은 글이 나올 수 있다. 쉬운 글, 명쾌한 문장, 정확한 수식, 그리고 아름다운 문장‥ "만 리 길도 한 걸음으로 시작된다" ― 과거의 글들을 살펴보니, 먼저 IT 관련 기술에 대한 번역투의 글들을 고쳐야겠다. 밑줄 긋기 주요 4단식 짜임 그리스 변론형A 도입(화제 제시) - 진술(주제 설명) - 논증(예증/사례) - 결어('진술'의 강조) 그리스 변론형B 진술('주제'로 직행) - 증명('..
맵리듀스 개요 맵리듀스(MapReduce)는 기존 하드웨어를 활용한 분산 프로그래밍 모델로서, 대용량 데이터를 빠르고 안전하기 처리하기 위해 만들었다. 2014년 OSDI 컨퍼런스에서 구글이 "MapReduce : Simplified Data Processing on Large Clusters" 논문을 발표한 이후, 맵리듀스는 관심을 받기 시작했다. 그리고 오픈소스 루씬(Lucene)의 개발자인 더그 커팅(Doug Cutting)이 하둡(Hadoop)을 만들면서 맵리듀스가 널리 알려졌다. 하둡 오픈 소스 프로젝트는 구글의 분산 기술(GFS, MapReduce)을 기반으로 2006년부터 시작했다. 하둡 파일 시스템(HDFS)는 대규모 분산 파일 시스템 구축의 성능과 안전정을 보여줬고, 맵리듀스는 HDFS에..
미니 서평 게리 해멀의 경영의 미래를 읽으면서 경영학의 문외한인지라 내용은 어려웠다. 그러나 20세기의 조직, 관리, 효율성을 강조하던 경역학이 21세기에는 새로운 형태로 나아가야 한다는 전반적인 흐름은 이해할 수 있었다. 프레드릭 W. 테일러(Frederic W. Taylor), 에드워즈 데밍(W. Edwards Demming)등의 과학적 관리 기법이나 품질관리 기법등을 통해 기업들은 오랜 시간 성장해왔고 효율성의 극대화를 가져올 수 있었다. 그러나 다니엘 핑크가 이야기하는 하이컨셉의 시대에는 이러한 경영 기법으로는 창의성을 가져올 수 없을 것이다. 책의 실험을 통해 나타나는 것처럼 집단 지식을 활용하여 더 나은 의사결정을 내리는 것도 한 방법이 될 수 있을 것이다. 즉, 직원들을 조직적으로 통제와 관..
하둡과 관련해 HDFS(하둡 파일 시스템), MapReduce(맵리듀스)를 기본적으로 알아야 합니다. 그러나 때로는 하둡 에코 시스템으로 제공하는 도구들을 이해하면 좀 더 빠르고 쉽게 하둡 프로그래밍을 할 수 있습니다. 이번에는 하둡과 관련된 많은 프로젝트들 중에서 피그(pig), HBase, 주키퍼(Zookeeper)에 대해서 간략하게 개념을 정리하려고 합니다. 해당 개념들을 살펴보고 추후 필요할 때 활용하면 좋겠네요. 피그(Pig) 피그는 대용량 데이터셋을 좀 더 고차원적으로 처리할 수 있도록 합니다. 맵리듀스에서 처리할 수 없는 부분들을 지원한다고 하는데요. 대표적으로 조인(Join)과 같은 연산이 가능합니다. 피그는 다중 값과 중첩된 형태를 보이는 좀 더 다양한 데이터 구조를 지원하고, 데이터에 ..