다음과 같은 날씨가 있다고 가정해봅시다. 비가 조금이라도 온 날을 1로 보구요.. 맑은 날을 0이라고 해보죠.. 그리고 나서 일정 기간의 데이터를 보고 앞으로 비가 올지 안올지를 예측해 보는 겁니다. 먼저 위의 날씨를 R의 벡터로 표시하면 다음과 같이 할 수 있을 것입니다. 앞으로의 날씨를 예측하는 부분의 알고리즘은 여기에서는 쉽게 다수결로 한다고 생각해 보겠습니다. k라는 수를 정하고, k값이 3이면 이전 3일 데이터를 가지고 1과 0중 더 많이 나온 것을 보고, 그날의 날씨를 예측해 보는 것이죠. 위 예에서는 1일에서 3일까지의 (0, 1, 1) 세개를 보고 1이 많으므로, 4일째도 1이 나온다고 예측한다는 것이죠. (즉, 비가 온다는 것입니다.) 한번 더 생각해볼까요? k값이 5이고, 위 그림의 9..
R을 어떻게 하면 쉽게 이해할 수 있을까? 생각해봤습니다. 모든 프로그래밍 언어가 마찬가지겠지만 실제 적용하는 사례로 보는 것이 가장 좋은 방법이 아닐까 합니다. 그래서 지금부터 R에 대해서 "빅데이터 분석 도구 R 프로그래밍(노만 매트로프 지음)"의 예제로 정리해 보려고 합니다. 첫번째는 매우 쉬운 예제이기는 하지만 기본적인 R을 이해하는데 도움이 될 것 같아서 진행해 봅니다. 0과 1로만 이루어진 벡터가 있을 때, 1이 연속으로 나오는 부분을 찾는 함수입니다. 즉, (1,0,0,1,1,1,0,1,1)과 같은 벡터가 있을 때, 1이 연속으로 세번 나오는 곳을 찾으면 4가 되겠죠.. 중요한 부분이 R에서의 벡터는 1부터 시작한다는 점입니다. C/C++에 익숙했던 분들은 0부터 시작한다고 생각할 수도 있지..
지금까지 살펴본 확률분포는 모두 평균이나 분산과 같은 매개변수들을 기반으로 확률분포를 정하게 됩니다. 예를 들어, 정규분포(Normal Distribution)에서는 평균과 분산을 알고서 확률분포를 구하게 되죠.. 그런데 만약 평균과 분산과 같은 매개변수를 모를 경우, 확률 분포를 어떻게 알 수 있을까요? 특히 정규분포와 달리 여러개의 봉으로 이루어진 데이터라면, 기존의 방식으로 확률 분포를 알수는 없을 겁니다. 이렇게 매개변수가 없을 때, 확률 분포를 구하는 방법을 Nonparamtric Method라고 합니다. (보통 비모수적 방법이라고 이야기 하는 것 같습니다.) Nonparametric Method는 보통 Histogram, Kernel Density, Nearest Neighbour 세가지가 있..
R을 활용하기 위한 데이터 구조를 정리해 보도록 하겠습니다. 일반적인 프로그래밍 언어와 달리 R에서는 벡터가 중요한 역할을 합니다. 실제로 R에서는 다음과 같은 숫자나 문자열 모두 벡터로 저장됩니다. 그래서 R에서는 스칼라 혹은 단일한 수치 값은 존재하지 않습니다. 단일 숫자처럼 보이지만 실제로는 한 개의 원소를 갖는 벡터로 이해하면 됩니다. 행렬 수학에서는 행과 열로 이루어진 행렬을 많이 사용합니다. R에서도 행렬을 데이터 구조로 취급할 수 있는데요.. 행의 개수와 열의 개수를 속성으로 가지고 있는 벡터라고 생각하면 됩니다. 행렬을 만들기 위해서는 rbind()와 cbind()의 두 가지 함수를 제공합니다. 이름에 나타난 것처럼 열(row) 기준인지 행(column) 기준인지를 나타냅니다. 다음 예를 ..
미니 서평 빅데이터의 높은 관심 최근 TV 프로그램을 보니 20회 특집에서 빅데이터 분석을 통한 해당 프로그램의 현재 상태를 진단하는 것을 봤는데요. 빅데이터가 이제는 전문가들만이 사용하는 것이 아니라, 누구나 이용할 수 있는 단계로 점차 나아가고 있다는 생각이 들었습니다. 실제로 빅데이터 관련 서적들이 봇물처럼 쏟아져 나오고 있으니 그만큼 관심이 높다는 것이겠죠. 제가 이미 읽었던 기술 부분이 아닌 빅데이터 개념과 관련된 책들도 다음과 같네요. 2013/02/22 - [리뷰/도서] - 빅데이터가 만드는 비즈니스 미래지도 - 미래 경제를 움직이는 거대한 데이터 혁명 2012/12/24 - [리뷰/도서] - 빅데이터 경영을 바꾸다 - 빅데이터 시대의 새로운 기회를 찾아서 2012/11/26 - [리뷰/도서..
- Total
- Today
- Yesterday
- 분석
- 책
- mysql
- 구글
- 안드로이드
- 마케팅
- 클라우드
- 자바스크립트
- 디자인
- 모바일
- 빅데이터
- 도서
- java
- 통계
- 자바
- 프로젝트
- r
- XML
- 아이폰
- Hadoop
- 맥
- 애플
- 세미나
- HTML
- SCORM
- 하둡
- ms
- fingra.ph
- 웹
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |