미니서평 옥스퍼드 대학 교수인 빅토르 마이어 쇤버거 교수와 이코노미스트의 기자인 케네스 쿠키어가 쓴 빅데이터와 관련된 이야기다. 흔히 통계 분석과 빅데이터 분석을 동일하게 인식하는 경향이 있는데 두 저자는 전문가 답게 데이터의 차이, 즉 일부에서 전체로의 변화로 빅데이터를 규정하면서 글을 시작한다. 즉, 과거에는 통계 분석을 위해 샘플링된 정확하고 정밀한 데이터가 필요했지만빅데이터 분석에서는 모든 데이터를 다루기 때문에 일부 들쭉날쭉한 데이터도 문제가 없다는 점이다. 포도밭의 온도를 측정해야 한다고 생각해보자. 밭 전체에 온도 센서가 하나뿐이라면 우리는 그 센서가 언제나 정확히 작동하도록 철저히 관리해야 한다. 들쭉날쭉함은 허용되지 않는다. 그러나 포도나무 100그루마다 센서를 설치할 거라면 좀 더 저렴..
TF-IDF를 이용하여 문서의 크기를 구하는 방법을 앞 강의에서 살펴봤다. 이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다. 다음과 같은 검색어가 주어졌다고 해보자. 검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다. 0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다. 이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다. new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다. 문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다. 이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자. 거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용..
텍스트 문서를 기반으로 벡터 모델에 대해서 정리해 보려고 한다. 문서의 텍스트를 처리할 때 특정 단어가 몇 번 나왔는지를 주로 세어본다. 많이 나온 단어일수록 중요하기 때문이다. 그러나 "그리고", "the", "a"와 같이 모든 문서에서 많이 나오는 단어들은 실제로 의미가 없다. 그래서 TF-IDF라는 가중치를 사용하게 된다. TF(Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내고, DF(Document Frequency)는 단어가 문서내에서 흔하게 등장한다는 것을 나타낸다. 그래서 DF의 역수인 IDF(Inverse Document Frequency) 구해서 TF와 IDF를 곱한 값인 TF-IDF를 가중치로 사용한다. 다음과 같은 텍스트로 구성된 3개의 문서가 ..
데이터 모델링이란 무엇일까? 먼저 데이터를 기반으로 모델을 만드는 것을 생각해 볼 수 있다. 그러나 처음부터 모델을 만드는 것에 집착하는 것은 바람직하지 않다. 너무 추상적이기도 하고, 어떤 모델을 어떻게 만들어야 할지 막막하기만 하다. 다른 측면에서 데이터 모델링을 정의해 보면, 데이터 모델링은 데이터의 속성을 설명할 수 있고 이해하는 것이라 할 수 있다. 흔히 데이터 분석을 이야기할 때, 먼저 데이터의 특성을 파악하라고 한다. 데이터의 특성을 파악하기 위해서는 다음 세 가지 항목을 알아야 한다. 데이터 구조, 데이터 연산, 그리고 데이터 제약조건이다. 특히 데이터 제약조건은 데이터 의미를 파악하는데 유용하게 활용할 수 있다. 데이터 구조 데이터 구조는 정형(structued), 반정형(semi-str..
미니 서평 개인적으로 보기에 그리 매력적인 책은 아니다. 특히 주식으로 어떻게 부자가 되었는지 설명하는 뒷부분은 별로였다. 아마도 너무 옛날 이야기이기 때문이거나 현재 주식을 하지 않기 때문인지도 모르겠다. 다만 앞부분에서 부자가 되기 위한 첫 번째 조건은 체력이라는 부분은 눈에 들어왔다. 체력!!너무 잘 알고 있지만 정말 실천하기 어려운 것 같다. 술과 담배를 줄이고, 규칙적으로 운동을 하고, 산책을 즐기며 명상을 하고, 하루에도 몇 번씩 이렇게 다짐을 하지만 잠들기 전 생각해보면 하나도 제대로 실천한 것이 없다 ㅠㅠ 밑줄 긋기 부자가 되기 위한 첫 번째 조건은 체력!- 충분히 잠을 자고 매일 일정한 시간에 기상하기 - 규칙적으로 스트레칭하고 명상하기- 가슴에 땀이 흠뻑 젖을 정도로 운동하기 - 몰입하..
이제 본격적으로 빅데이터 가치 창출을 위한 5단계의 프로세스를 살펴보기로 한다. 이것은 일반적인 빅데이터 분석 과정인 "데이터 획득 - 데이터 준비 - 데이터 분석 - 시각화 - 활용"을 의미한다. 데이터 획득 (Acquire) 데이터 획득은은 단순히 데이터를 수집하는 것만을 의미하지 않는다. 먼저 데이터 셋을 명확하게 정의해야 한다. 어떤 데이터들이 있고, 해당 데이터의 특성이 무엇인지를 명확하게 설정해야 한다. 그리고 나서 데이터를 검색해보거나 쿼리를 할 수 있어야 한다. 개인적으로는 이 단계에서 데이터 속성을 파악하는 것이 중요하다고 생각한다. 데이터에 어떤 항목들이 포함되어 있고, 그것이 무엇을 의미하는 지를 알아야 올바른 가설 또는 문제를 정의할 수 있다. 데이터 준비 (Prepare) 데이터 ..
미니 서평 10년 전 이 책을 처음 읽었을 때 신선한 충격이었다. 아인슈타인에 대한 전기가 아닌, 공식 E=mc2이 마치 살아 있는 생명체인 것처럼, 탄생, 초창기, 성년기로 나누어서 소설처럼 쉽게 이야기 하고 있었다. 이번에 다시 읽으면서 내용을 더 깊이 있게 이해하고 싶었으나 물리학 지식이 부족해서인지 10년 전과 별 차이는 없는 듯 하다. 다만, 책에 등장하는 수많은 천재 과학자들의 이야기에서상상력과 과학적 사고의 필요성을 새삼 느끼게 되었다. 과학적 사고는 모든 사람들이 당연하게 받아들이는 것에 대해서 왜? 그럴까? 하고 다른 측면에서 생각해 보는 것 같다. 여기에 상상력을 발휘해 가설을 세우고 현상을 관찰하거나 실험을 통해서 증명해 나가는 것 같다. 기존 생각의 틀을 깨는 것은 쉽지 않다. 그러..
빅데이터는 초기의 개념 정의, 그리고 기술 적용의 단계를 넘어 활용으로 나아가고 있다. 가치 창출을 위한 빅데이터 활용 측면에서 빅데이터 모델링에 대해 살펴보고자 한다. 알리스테어 크롤과 벤저민 요스코비치가 쓴 린 분석(Lean Analytics)에 보면, "행동을 변화시키지 않는다면 잘못된 지표이다" 라는 이야기가 나온다. 빅데이터 분석만 하고 아무런 행동도 하지 않는다면 무의미하다는 것이다. 즉, 빅데이터 분석의 최종 목표는 반드시 실행이어야 한다. 다양하고 수많은 데이터에서 인사이트를 찾고 이를 실행에 옮기는 것이야말로 진정한 빅데이터의 활용이자 데이터 과학이라 할 수 있다. 그러나 빅데이터에서 인사이트를 찾아내는 것 자체가 어려울 수 있다. 인사이트를 찾기 위해서는 무엇을 해야 할까? 당연히 분석..
미니 서평 자유주의적 개입주의~ 타인의 선택을 유도하는 부드러운 개입을 바로 넛지(nudge)라고 한다. 원래 넛지는 "1.팔꿈치로 슬쩍 찌르다. 2.주의를 환기시키다" 라는 의미를 가지고 있었으나, 탈러와 선스타인에 의해서 주의를 환기시키는 차원에서 벗어나 다른 사람의 행동을 변화시키고 보다 윤택하게 만드는 역할까지로 발전한 것이다. 책의 내용을 전반적으로 살펴보면, 넛지에 대한 개념을 이콘과 인간에 비유해 설명하는 1부는 신선하고 재미있었다. 넛지가 필요한 순간이나 선택 설계에 대한 내용들.. 그리고 RECAP까지.... 하지만 사례를 이야기하는 2부~4부까지는 책을 읽는 내내 지루했다. 연금이나 모기지, 사회 보장, 의료 보험 등이 미국 정책 중심이어서 생소하기도 했지만내가 그 분야에 문외한이어서 ..
2023/10/15 비열한 시장과 도마뱀의 뇌 2023/08/14 클루지 - 생각의 역사를 뒤집는 기막힌 발견 2023/08/03 메리골드 마음 세탁소 2022/12/16 불편한 편의점 2022/11/21 돈의 심리학 - 당신은 왜 부자가 되지 못했는가 2022/09/25 워런버핏 바이블 2021 2022/09/21 김진명 역사소설 고구려 2022/09/14 아빠의 첫 돈 공부 - 월급 노예 18년 만에 찾은 경제적 자유 달성법 2022/09/08 채권쟁이 서준석의 다시 쓰는 주식 투자 교과서 2022/09/02 빛의 양자컴퓨터 - 광양자컴퓨터의 원리와 이론 그리고 실현을 향한 여정 2022/08/15 질서너머 - 인생의 다음 단계로 나아가는 12가지 법칙 2022/08/06 NFT 레볼루션 - 현실과 ..
- Total
- Today
- Yesterday
- fingra.ph
- 세미나
- 마케팅
- java
- 도서
- 아이폰
- r
- 프로젝트
- 웹
- ms
- 디자인
- 하둡
- 책
- 빅데이터
- 애플
- 맥
- Hadoop
- mysql
- 자바
- HTML
- XML
- 안드로이드
- 클라우드
- SCORM
- 모바일
- 분석
- 구글
- 자바스크립트
- 통계
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |