R 주요 강의 [R#1] 데이터 통계 분석을 위한 R 설치와 활용[R#2] R 실행을 위한 기본적인 내용들~[R#3] R 데이터 구조에 대한 정리[R#4] R 패키지 설치하기[R#5] R 데이터셋 처리 함수들에 대한 간단한 정리~[R#6] R 데이터셋 정렬하기~[R#7] R 데이터셋의 일부 데이터 가져오기[R#8] R의 lapply, sapply, vapply를 이해하자~[R#9] R의 apply, tapply의 활용법을 알아보자~[R#10] R의 split 활용[R#11] R의 함수 작성 및 활용~[R#12] R 시뮬레이션 - 랜덤 변수 샘플링[R#13] R 함수에서 캐시 활용하기~[R#14] R 디버깅 툴 활용하기~ 하둡 주요 강의 [Hadoop#1] 하둡 설치부터 테스트까지 정리~[Hadoop#2]..
미니서평 "이 모든 것이 당신을 행복하게 해줍니까?"마사이족이 저자인 데이비드의 엄청난 여행 가방에 대한 물음이라고 한다. 과거에 비해 삶이 풍요롭고 소유한 것도 많은데 왜 우리는 행복하다고 느끼지 못하는 것일까?저자는 웃음을 잃었기 때문이라 한다. 하루하루 일상에 지쳐 직장이나 집에서 웃음을 잃어버린 건 아닐런지~ 그리고 모든 짐을 혼자서 짊어질 필요는 없다. 주변에 가족, 친구, 직장 동료 등 도와줄 사람이 많다는 것도 한 번쯤 다시 생각해 봐야 할 것 같다. 또 하나는 일에 너무 집착해 있다는 점이다. 왜 이 일을 하고 있는지에 대한 고민없이 그저 빨리 주어진 일을 처리하려고만 한다. 그러면 또 새로운 일이 주어지고.. 다람쥐 챗바퀴 돌듯이 하루, 일주일, 한달, 일년이 지나가 버리는 것이다. 성공..
시사경제독설은 작년 카카오브런치 공모전 대상 수상으로 데뷔한 닥터 K의 두번째 책이다. 주식, 부동산, 환율 등 경제와 관련된 지식과 저자만의 독특한 관점에서의 해석이 돋보인다. 먼저 뉴스에 대한 관점을 살펴보면 다음과 같다. 처음에는 신문의 일부만 차지하던 대중적인 보도 형태가 점차 전면을 차지하게 되었다. 그리고 언론사들은 또 하나 깨달은 사실이 있었는데, 바로 언론 기사로 대중을 조정할 수 있다는 것이었다. 이것은 아주 혁신적인 생각이었다. 일반적으로 뉴스에 나온 이슈는 더 이상 새로운 것이 아니라고 한다. 가장 마지막에 뉴스에 언급이 되므로 뉴스와 반대로 생각해보라는 것이다. 저자도 이와 비슷한 이야기를 한다. 언론사가 뉴스를 만들 때는 판매부수나 시청률 때문에 대중이 알고 싶어 하거나 선호하는 ..
통계적 가설 검정은 통계적 추측의 하나이다. 전체 집단의 실제 값이 얼마라는 주장에 대해서 표본을 활용해 가설의 합당성 여부를 판단하는 것이다. 빅데이터 시대에는 전체 데이터 대상으로 수집, 처리하기 때문에 통계적 가설 검정이 필요하지 않다. 그러나 전체 데이터를 수집할 수 없다면, 통계적으로 가설이 적합한지를 결정하기 위해 반드시 필요한 절차다. 통계적 가설 검정 절차 통계적 가설 검정은 다음 5가지 절차를 거쳐서 수행한다. 1. 유의수준의 결정, 귀무가설과 대립가설 설정2. 검정통계량 결정3. 기각역의 설정4. 검정통계량 계산5. 통계적인 의사결정 유의수준의 결정, 귀무가설과 대립가설 설정 유의수준(Significance level)이란 통계적 가설 검정에서 사용하는 기준값으로 로 표시한다. 여론조사..
미니서평 제4차 산업혁명이 연일 기사화되고 있다. 작년 초 이 책의 저자인 클라우드슈밥 회장이 세계경제포럼에서 제4차 산업혁명을 언급하면서 시작되었다. 증기기관에서 전기, 그리고 컴퓨터로 이어지는 지금까지의 산업혁명은 시간이 경과된 다음에 명명되었다. 그러나 제4차 산업혁명은 그 시기가 도래하는 초기에 화두가 되고 있다. 빅데이터, 인공지능, 사물인터넷, 블록체인 등 기술의 발전에 따라 앞으로의 불확실성이 높아짐에 따라 나타난 현상으로 보인다. 불확실성(uncertainty)... 현대 사회를 관통하는 가장 적절한 단어가 아닐까 하는 생각을 한다. 프랑스 계몽시대의 철학자이자 작가인 볼테르는 '의심은 불쾌한 일이지만, 확신은 어리석은 일이다'라고 말했다. 실제로 제4차 산업혁명이 어떤 결과를 낳게 될지,..
통독: 2016.12.10 ~ 2017.01.20 미니서평 많은 책에서 인용되는 햄릿을 처음 희곡체로 읽어봤다. 바로 최종철 님이 옮긴 민음사의 세계문학전집 시리즈에 포함된 햄릿이다. 낯설은 대사 형태의 글이기에 읽기에 어려움도 있었지만때로는 마치 배우인 것처럼 소리내어 읽어보기도 하면서 재미있게 봤다. 대사 하나하나가 번역본임에도 불구하고 살아있는 아니, 한 번 더 생각하게 만드는 구절들이었다. 작품해설에 보면 햄릿의 줄거리가 삭소 그라마티쿠스의 "덴마크 역사"에 실려있다고 한다. 그리고 오래 지연된 복수의 실행과 같은 주요 사건들이 이미 삭소의 얘기에 포함되어 있음은 놀라운 사실이다. 그러나 더 놀라운 일은 이런 원시적인 복수 이야기를 "햄릿"과 같이 다양하면서도 통일된 주제와 깊이를 가진 극으로 바..
미니서평 옥스퍼드 대학 교수인 빅토르 마이어 쇤버거 교수와 이코노미스트의 기자인 케네스 쿠키어가 쓴 빅데이터와 관련된 이야기다. 흔히 통계 분석과 빅데이터 분석을 동일하게 인식하는 경향이 있는데 두 저자는 전문가 답게 데이터의 차이, 즉 일부에서 전체로의 변화로 빅데이터를 규정하면서 글을 시작한다. 즉, 과거에는 통계 분석을 위해 샘플링된 정확하고 정밀한 데이터가 필요했지만빅데이터 분석에서는 모든 데이터를 다루기 때문에 일부 들쭉날쭉한 데이터도 문제가 없다는 점이다. 포도밭의 온도를 측정해야 한다고 생각해보자. 밭 전체에 온도 센서가 하나뿐이라면 우리는 그 센서가 언제나 정확히 작동하도록 철저히 관리해야 한다. 들쭉날쭉함은 허용되지 않는다. 그러나 포도나무 100그루마다 센서를 설치할 거라면 좀 더 저렴..
TF-IDF를 이용하여 문서의 크기를 구하는 방법을 앞 강의에서 살펴봤다. 이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다. 다음과 같은 검색어가 주어졌다고 해보자. 검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다. 0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다. 이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다. new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다. 문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다. 이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자. 거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용..
텍스트 문서를 기반으로 벡터 모델에 대해서 정리해 보려고 한다. 문서의 텍스트를 처리할 때 특정 단어가 몇 번 나왔는지를 주로 세어본다. 많이 나온 단어일수록 중요하기 때문이다. 그러나 "그리고", "the", "a"와 같이 모든 문서에서 많이 나오는 단어들은 실제로 의미가 없다. 그래서 TF-IDF라는 가중치를 사용하게 된다. TF(Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내고, DF(Document Frequency)는 단어가 문서내에서 흔하게 등장한다는 것을 나타낸다. 그래서 DF의 역수인 IDF(Inverse Document Frequency) 구해서 TF와 IDF를 곱한 값인 TF-IDF를 가중치로 사용한다. 다음과 같은 텍스트로 구성된 3개의 문서가 ..
데이터 모델링이란 무엇일까? 먼저 데이터를 기반으로 모델을 만드는 것을 생각해 볼 수 있다. 그러나 처음부터 모델을 만드는 것에 집착하는 것은 바람직하지 않다. 너무 추상적이기도 하고, 어떤 모델을 어떻게 만들어야 할지 막막하기만 하다. 다른 측면에서 데이터 모델링을 정의해 보면, 데이터 모델링은 데이터의 속성을 설명할 수 있고 이해하는 것이라 할 수 있다. 흔히 데이터 분석을 이야기할 때, 먼저 데이터의 특성을 파악하라고 한다. 데이터의 특성을 파악하기 위해서는 다음 세 가지 항목을 알아야 한다. 데이터 구조, 데이터 연산, 그리고 데이터 제약조건이다. 특히 데이터 제약조건은 데이터 의미를 파악하는데 유용하게 활용할 수 있다. 데이터 구조 데이터 구조는 정형(structued), 반정형(semi-str..