R을 사용하면서 특정 파일에서 데이터를 읽어 분류하고 관계를 확인해야 하는 경우가 많이 있다. 이런 경우, 활용할 수 있는 간단한 예제를 살펴보도록 한다. (노만 매트로프의 빅데이터 분석 도구 R 프로그래밍 참조) 먼저 샘플로 사용할 아래 전복(abalone)의 데이터 파일을 다운로드 하자. 파일을 열어보면 다음과 같이 컴마(,)로 구분된 CSV 파일임을 알 수 있다. 여기에서 성별(Gender)에 따라 전복의 직경(Diameter)과 길이(Length)가 변화가 있는지 살펴보려고 한다. 전체 소스는 다음과 같다. read.csv 함수를 통해서 abalone.data 파일을 읽어들인다. 옵션을 살펴보면 헤더를 인식하도록 True값으로 설정했다. grps라는 빈 리스트 변수를 만들고 여기에 수컷과 암컷으로..
미니서평 버락 오바마.. 미국 최초의 흑인 대통령... 아프리카계 미국인의 최초 대통령... 하와이 출신의 최초 대통령... 하버드 로스쿨에서는 최초의 흑인 편집장... 다양한 수식어를 가지고 있는 버락 오바마 대통령이 일리노이주 상원의원으로 출마하고 당선될 당시의 새로운 미국에 대한 희망을 이야기한 것이 바로 이 책이다. 대부분 정치인의 책이 그렇듯이, "좋은 나라 만들자", "배고프니까 밥먹자" 하는 식의 이야기 일 것이라 생각했다. 그러나 오바마의 주관, 철학, 그리고 이를 뒷받침하는 수많은 사례들이 다른 정치인의 책과는 조금 다르게 느껴졌다. 오바마란 이름 석자를 알리게 된 2004년 존 케리의 민주당 전당대회 연설부터 2007년 오바마의 대통령 수락연설까지... 왜 오바마의 연설에 사람들이 열광..
TRL(Technology Readiness Level)은 핵심 요소 기술의 성숙도를 나타내는 객관적 지표로 많이 사용한다. 최근 정부의 R&D 과제에서도 단계별 명확한 연구개발 목표 설정 및 정량적 평가 기준 설정을 위해 TRL 단계별로 RFP가 나오기도 한다. TRL은 미국 NASA에서 우주 산업의 기술 투자 위험을 관리하기 위해 1989년 도입하기 시작했다. 이후 미 국방부(DoD), 유럽 우주국(ESA), 유럽 위원회(EC), 미국 석유협회(API) 등에서 활용하고 있다. TRL은 1단계인 기초원리와 개념부터 9단계의 사업화까지 다음과 같이 이루어져 있다. TRL에서 중요한 것은 핵심 요소 기술을 파악하는 것이다. 즉 성능, 제작과정, 재료 측정, 도구, 기반시설 등을 고려하여 해당 기술에서 핵심..
분석을 하면서 "몬테카를로 시뮬레이션"을 한번쯤은 들어봤을 것이다. 몬테카를로는 무작위 값을 활용하여 확률적으로 계산하는 알고리즘을 이야기한다. 이렇게 확률적으로 계산함으로써 원하는 수치의 확률적 분포를 구할 수 있게 된다. 이를 위해 많은 수의 실험을 바탕으로 한 통계를 이용해 확률적 분포를 알게 되므로, 이것을 바로 몬테카를로 시뮬레이션이라고 한다. 몬테카를로 시뮬레이션 개념 몬테카를로는 통계 자료가 많고 입력값의 분포가 고를수록 정밀하게 시뮬레이션 할 수 있다. 그래서 컴퓨터를 이용해 시뮬레이션을 주로 한다. 또한 이론적 배경이나 복잡한 수식으로 계산해야 하는 경우, 근사치를 계산하기 위해서도 몬테카를로를 많이 사용한다. 몬테카를로 시뮬레이션은 모나코의 유명한 도박 도시이름을 따서 만들었다고 한다...
에릭 리스는 린 스타트업에서 5번 왜라는 질문을 하면 문제의 본질에 도달할 수 있다고 했다. 5번 왜?라는 질문을 하는 것은 에릭 리스가 처음 주장한 것은 아니다. 이것은 오노 다이이치가 도요타에서 문제 해결을 위해 활용한 기법 중 하나이다. 생산 라인에서 문제가 발생하면 안돈 시스템(Andon System)이 가동되어 경고가 울리고 모든 라인이 정지된다. 이제 문제를 분석하고 해결해야 하는데, 이 때 5 Why를 이용해 문제의 근본을 해결하는 것이다. 즉, 5 Why는 근본적인 해결을 통해 문제의 재발을 방지하기 위한 도요타의 핵심 정신이다. 5 Why의 실제 사례를 보면 어떻게 문제의 근본에 접근해 가는지 알 수 있다. 트럭이 창고 앞에서 계속 대기해야 하는 문제가 발생했다. 빨리 지게차를 불러서 이..
러시아의 사상가인 이사야 벌린은 사람을 "고슴도치"와 "여우"의 두 가지 유형으로 분류했다. 여우는 여러 가지 목적을 동시에 추구하면서 세상의 복잡한 면면을 두루 다룬다. 그래서 오지랖 넓게 여기 저기 기웃거리는 사람이라 할 수 있다. 반면, 고슴도치는 복잡한 세계를 단 하나의 체계적인 개념이나 기본 원리로 단순화 시킨다. 그래서 하나의 원리를 향해 외곬으로 나아가는 사람이라 할 수 있다. 원래 고슴도치와 여우는 라틴어 격언에서 시작한다. 여우는 많은 것을 알지만, 고슴도치는 큰 것 하나를 안다. (Multa novit vulpes, verum echinus unum magnum) 이사야 벌린은 톨스토이가 고슴도치 타입인지 여우 타입인지를 "전쟁과 평화"를 통해 살펴보았다고 한다. 그 결과 톨스토이는 고..
선형 회귀 분석에서 분석 데이터의 적합성 여부를 항상 고려해야 한다. 적합성 여부를 확인하는 방법 중 먼저 "결정계수(Coefficient of Determination, R-Square, R-제곱값, R2, R^2)"를 알아보자~ 결정계수는 "수식이 얼마나 X와 Y의 관계를 잘 표현하고 있는지" 나타내는 기준이다. 결정계수 (r-square) 일반적으로 결정계수는 0과 1사이의 값을 갖는데, 관계가 높을 수록 1에 가까운 값을 갖는다. 즉, 0에 가까워질수록, 수식에 데이터 분포를 제대로 표현하지 못하는 것이며, 1에 가까워지면 모든 데이터가 해당 수식에 접근한다는 것을 나타낸다. 결정계수를 나타내는 수식을 보면 다음과 같다. SSR, SST, SSE?? 처음 접할 경우, 용어를 모르기 때문에 어렵게 ..
미니 서평 마케팅의 4요소를 들어본 적이 있는가? 미국의 매커디 교수가 마케팅 믹스의 구성요소로 4P(Product, Place, Price, Promotion)를 언급한 후 마케팅에서는 P로 시작하는 단어들을 많이 사용한다. (Positioning, Packaging, Permission 등..) 세스 고딘도 이러한 관례에 따라 새로운 P를 추가했다. Purple Cow... 누런 소들 중에서 가장 눈에 띄는 보라색 소... 바로 리마커블(Remarkable)에 대해 이야기 하고 있다. 리마커블은 "놀랄만한, 주목할 만한"이란 뜻이다. 책에서도 리마커블은 주목할 만한 가치가 있고, 예외적이고, 새롭고, 흥미진진한 것을 나타내고 있다. 왜 리마커블해져야 할까? 세상이, 시장이 변화했기 때문이다. 과거 백..
2003년 책 "Purple Cow"의 마케팅은 리마커블했다. 정식 출시 3개월 전, "패스트 컴퍼니"에 요약본을 게재하면서 배송료 5달러만 송금하면 전문을 무료로 보내주는 이벤트는 5,000권 모두 매진으로 성공적이었다. 이어 추가 구매자들에게 주변 선물용으로 12권을 팩으로 묶어 60달러에 판매하면서 나머지 5,000권도 모두 매진되었다. 결국 입소문의 힘으로 5월 정식출간되면서 2003년 아마존 최고의 책으로 선정되기까지 했다. 리마커블한 세스 고딘의 "보랏빛 소가 온다(Purple Cow)"의 핵심 부분들을 옮겨본다. 앞으로의 마케팅 전략 수립(아니 리마커블한 제품)에 도움이 될 수 있도록... --- 과거 백년 동안의 마케팅 이론은 그 수명이 다했다. 광고(advertising)는 집어치우고 혁..
인터브랜드(Interbrand)는 매년 전 세계 상위 100대 브랜드를 발표한다. 다양한 기준들을 조합해서 어느 브랜드가 가장 가치 있는지 결정하는데, 세스 고딘(Seth Godin)의 "보랏빛 소가 온다 (Purple Cow)"의 뒷부분에 보면 2002년 가치있는 세계 상위 100대 브랜드 목록이 있다. 당시 100대 브랜드 가운데 70개는 25년 전에도 미국에서 가치 있는 브랜드였다고 한다. 30개의 브랜드가(휴렛패커드, 오라클, 닌텐도, SAP, 캐논, 이케아, 썬, 야후, 에릭슨, 모토롤라, 아마존닷컴, 프라다, 스타벅스 등) 새롭게 등장했다고 한다. 과연 12년이 지난 2014년 100대 브랜드에는 어떤 변화가 있을까? 2002년 당시 신규 브랜드 이름을 보면, 대부분 아직까지 상당히 가치 있는..