데이터 통계 분석을 위한 R 설치와 활용

|



R 소개

빅데이터 처리 기술 중에 최근 인기있는 R 에 대해서 간략하게 소개합니다. 

R은 통계, 그래픽 작업, 통계적 프로그래밍을 하는데 매우 효과적인 툴입니다. 

기존의 SAS, SPSS와 같은 통계 처리 프로그램들이 있었는데요. 

R은 이러한 프로그램을 대신할 수 있는 오픈소스 프로젝트로서 R에서 사용할 수 있는 애드온만 2천개가 넘을 정도로 널리 사용되고 있습니다. 



여러분이 R에 대한 자료를 검색하기는 쉽지 않습니다. 

당연히 R을 검색하면 R과 관련없는 수많은 자료들이 나오기 때문이죠. 

R에 대한 자료를 가장 많이 가지고 있는 곳은 당연히 R 프로젝트 사이트입니다. 

http://www.r-project.org


위 사이트에서 R 프로그램 다운로드, 애드온 패키지, 문서, 소스 코드 등을 받아서 살펴볼 수 있습니다. 

혹시 검색이 필요할 때는 R만 다루는 검색엔진을 활용하는 것도 좋은 방법입니다. 

http://rseek.org


빅데이터에서 R

R을 빅데이터의 대표적인 Hadoop에서 처리하고자 할 때는 몇 가지 사항을 고려해야 합니다. 

일단, R은 Single core / In-memory 기반으로 동작합니다. 

즉, 하둡과 같은 분산 환경을 지원하고 있지는 않다는 것이죠. 


이를 위해 몇몇 벤더를 중심으로 R-Hadoop, R-Hive 등이 개발되어 사용되고 있기도 합니다. 



R 설치 및 활용

R의 설치는 간단합니다. R 프로젝트 사이트에서 바이너리를 받으면 윈도우, 맥, 리눅스에 모두 설치할 수 있습니다. 

R 다운로드 페이지로 이동하면 국가별 선택이 나오는데요. 

우리나라는 다음 사이트에 미러링이 되어 있네요. 

http://cran.nexr.com/


저는 여기에서 Mac 버전을 받아서 설치해봤습니다.

 

패키지 버전을 받으니 일반적인 설치 프로그램이 나타나서 쉽게 진행할 수 있습니다. 


이제부터는 R 프로그램을 이용해서 테스트를 해 보시면 됩니다. 


배열을 c("", "", "") 와 같은 형태로 적용해 보고, help.start()와 같은 도움말이나 평균값, 중앙값 등을 계산해봤습니다. 

이외에도 R 책이나 자료를 살펴보면 보다 많은 내용을 테스트해 볼 수 있을 것입니다. 


실제 프로그래밍에서 활용하기 위해서는 MySQL을 연동하는 RMySQL이나 Text/CSV 파일을 불러오거나 저장하는 방법도 알아야 할 거구요. 

Java에서 사용할 수 있는 rJava, 콘솔에서 스크립트로 사용하는 방법 등도 좀 더 살펴봐야 할 것 같네요. 


미니의 R 주요 강좌...

데이터 통계 분석을 위한 R 설치와 활용

R 실행을 위한 기본적인 내용들~

R 데이터 구조에 대한 정리

R 패키지 설치하기

R 데이터셋 처리 함수들에 대한 간단한 정리~

R 데이터셋 정렬하기~

R 데이터셋의 일부 데이터 가져오기

R의 lapply, sapply, vapply를 이해하자~

R의 apply, tapply의 활용법을 알아보자~

R의 split 활용

R의 함수 작성 및 활용~

R 시뮬레이션 - 랜덤 변수 샘플링

R 함수에서 캐시 활용하기~

R 디버깅 툴 활용하기~


신고



Trackback 0 And Comment 0