R 소개빅데이터 처리 기술 중에 최근 인기있는 R 에 대해서 간략하게 소개합니다. R은 통계, 그래픽 작업, 통계적 프로그래밍을 하는데 매우 효과적인 툴입니다. 기존의 SAS, SPSS와 같은 통계 처리 프로그램들이 있었는데요. R은 이러한 프로그램을 대신할 수 있는 오픈소스 프로젝트로서 R에서 사용할 수 있는 애드온만 2천개가 넘을 정도로 널리 사용되고 있습니다. 여러분이 R에 대한 자료를 검색하기는 쉽지 않습니다. 당연히 R을 검색하면 R과 관련없는 수많은 자료들이 나오기 때문이죠. R에 대한 자료를 가장 많이 가지고 있는 곳은 당연히 R 프로젝트 사이트입니다. http://www.r-project.org 위 사이트에서 R 프로그램 다운로드, 애드온 패키지, 문서, 소스 코드 등을 받아서 살펴볼 수 ..
Hadoop 완벽 가이드 - 톰 화이트 지음, 심탁길.김우현 옮김/한빛미디어 최근 빅데이터 이슈와 함께 하둡이 큰 관심을 받는 것 같습니다. 해외에서는 여러 프로젝트에서 이미 도입해서 사용하고 있지만 아직까지 국내에서는 하둡을 실제 프로젝트에 사용하고 있는 업체가 생각보다 많지 않은 것 같습니다. 실제로 올 4월쯤 본격적으로 하둡을 기반으로 한 서비스를 준비하면서 살펴보니 하둡에 대한 책도 톰 화이트가 지은 "Hadoop 완벽 가이드" 하나 뿐이더군요. (지금은 다른 하둡 책이 한 권 더 나오기는 했습니다만) 이 책은 하둡에 대해서 하둡의 역사, 하둡 파일시스템, 맵리듀스 프로그래밍, 하둡 I/O, 하둡 관리, 피그/HBase/주키퍼 등 관련 상위 기술 등 하둡과 관련된 거의 모든 이슈를 한권에 담아내고..
하둡(Hadoop)의 파일시스템인 HDFS의 명령어를 모두 정리해 보려고 합니다. 하둡의 명령어는 다음과 같은 구조를 가지고 있습니다. hdfs dfs -cmd cmd가 지정한 파일 명령어이고 는 각 명령에 따른 인자들을 나타냅니다. hadoop fs를 제외하면 일반적인 리눅스 명령어와 유사하다고 볼 수 있습니다. 그럼 정리해보도록 하겠습니다. (도서 "거침없이 배우는 하둡"의 부록을 참고했습니다.) cat hdfs dfs -cat FILE [FILE ...] 파일의 내용을 나타낸다. 압축된 파일을 읽기 위해서는 fs 대신에 text 명령어를 사용해야 한다. chgrp hdfs dfs -chgrp [-R] GROUP PATH [PATH ...] 파일과 디렉토리에 대한 그룹을 변경한다. -R 옵션은 하위 ..
앞선 강좌에 따라 환경 설정을 하고 이클립스에 개발환경 세팅 후 맵리듀스 프로그래밍을 진행을 하다보면 조금 귀찮은게 있습니다. 우선 프로그램을 테스트하기 위해서 매번 jar로 묶어줘야 한다는 점이 있구요. 또한 input 파일을 hadoop의 파일시스템으로 넣어줘야 한다는 것도 조금 귀찮습니다. 이러한 문제를 해결할 수 있는 것은 역시 standalone mode로 실행하는 수 밖에는 없을 것 같습니다. 앞서 세팅한 하둡(hadoop) 설치부터 테스트까지 정리~ 에서는 pseudo-distributed mode였는데요. 이번에는 설정된 환경에서 몇개의 config 파일만 수정해서 standalone mode로 변경해서 jar로 묶지 않고 로컬의 파일시스템으로 예제를 실행해 보도록 하겠습니다. Standa..
하둡과 관련되어 작성한 글 목록을 먼저 보여드립니다. 참고하시기 바랍니다. 2012/02/29 - [리뷰/블로그] - BigData 처리를 위한 맵리듀스(MapReduce)에 대하여~ 2012/05/18 - [프로그래밍/Java] - 하둡(Hadoop) 설치부터 테스트까지 정리~ 2012/05/22 - [프로그래밍/Java] - 하둡 맵리듀스 프로그래밍을 위한 이클립스 플러그인 설정 #1 지난 시간에 Mac에 이클립스 플러그인을 설치하는 과정을 살펴봤는데요. 마지막에 설명한 것처럼 플러그인의 장점을 충분히 살리지 못하고 있으며 약간의 버그들도 존해하기 때문에 큰 의미가 없었습니다. 그래서 이번에는 일반적인 자바 프로젝트로 개발 환경을 설정하고 word count를 처리하는 예제를 실제로 실행해 보도록 하..
요즘 하둡(Hadoop)을 계속해서 테스트해보고 있습니다. 지난번에 설치는 2012/05/18 - [프로그래밍/Java] - 하둡(Hadoop) 설치부터 테스트까지 정리~ 에서 정리했었는데요. 이번에는 맵리듀스 프로그래밍을 위한 이클립스 설정을 살펴보도록 하겠습니다. 참고로 이번부터는 맥에서 하둡을 설치하고 테스트를 진행했네요. Apache Ant / Ivy 다운로드 및 설치하둡 내부의 소스 폴더를 보면 ant build를 많이 사용하고 있습니다. 자바 프로젝트를 하면서 Ant는 기본적으로 설치되어 있을텐데요. 제 Mac에서도 /usr/share/java/ant-1.8.2/에 설치되어 있네요. Ant가 설치되어 있으면 이어서 Apache Ivy를 설치해야 합니다. 하둡에서도 Ivy를 사용하고 있는데요. ..
지난번에 맵리듀스에 대해서는 한번 정리한 적이 있는데요. 오늘은 하둡(Hadoop)을 설치하고 환경변수들을 설정한 후, 기본 예제인 Word Count를 실행해보도록 하겠습니다. 백문이 불여일견이라고 내용을 아무리 보는 것 보다 직접 해보는 것이 확실히 도움이 되는 것 같습니다. 하둡(Hadoop) 설치하둡은 HDFS, MapReduce를 소프트웨어로 구현한 것으로 아파치 Top-Level 프로젝트입니다. 코어는 Java, C/C++, Python등을 지원하는데요. 기본적으로 JDK는 설치되어 있어야 Hadoop을 구동할 수 있습니다. 하둡을 구동하기 위해서는 리눅스 환경이 좋은데요. 윈도우는 경우에는 가상머신을 활용하면 됩니다. (맥은 설치가 됩니다.) 저는 우분투를 PC에 설치해서 하둡 설치를 진행했..