티스토리 뷰

클라우데라의 QuickStart VM을 활용해서 하둡 맵리듀스를 처리하는 예제를 살펴보기로 하자. 

만약 VM이 설치되어 있지 않다면, QuickStart VM 설치하기 글을 참고하기 바란다. 


테스트할 예제는 가장 기본적인 WordCount 예제이다. 

해당 소스에 대한 설명은 WordCount 맵리듀스 테스트 글을 살펴보기 바란다. 


Word Count 테스트 

이제 QuickStart VM을 통해서 Word Count를 해보기로 하자. 

1. VM에서 터미널을 열고 다음 명령어로 hadoop-mapreduce-examples.jar 파일이 있는 곳으로 이동하고 해당 파일을 확인한다. 

> cd /usr/lib/hadoop-mapreduce/
> ls *examples.jar


2. hadoop jar 명령어로 wordcount 예제를 실행해 보자. 

> hadoop jar hadoop-mapreduce-examples.jar wordcount


Word Count를 실행하기 위해 입력 파일(<in>), 출력 파일(<out>)을 포함시켜야한다고 나온다. 

그래서 다음 단계로 입력 파일을 만들어 보도록 하자. 


3. testfile1과 testfile2를 다음과 같이 생성한다. 

> echo "Hello world in HDFS" > /home/cloudera/testfile1
> echo "Hadoop word count example in HDFS" > /home/cloudera/testfile2
> ls /home/cloudera/testfile*


4. 하둡 파일 시스템에 /user/cloudera/input 폴더를 생성하고 위에서 만든 testfile1, testfile2를 하둡 파일시스템에 올린다. 

> hdfs dfs -mkdir /user/cloudera/input
> hdfs dfs -put /home/cloudera/testfile1 /user/cloudera/input
> hdfs dfs -put /home/cloudera/testfile2 /user/cloudera/input


5. 이제 word count 예제에 입력, 출력을 지정해서 맵리듀스 잡을 실행시켜 보자. 

> hadoop jar hadoop-mapreduce-examples.jar wordcount /user/cloudera/input /user/cloudera/output


6. 하둡 파일 시스템의 결과값을 다음 명령어로 확인해 본다. 

> hdfs dfs -ls /user/cloudera/output


7. 단어 갯수와 순서가 저장되어 있는 파일 part-r-00000의 내용을 확인해 보면 다음과 같다. 

> hdfs dfs -cat /user/cloudera/output/part-r-00000


8. 마지막으로 결과 파일을 get 명령어로 로컬 파일(/home/cloudera/wordcount.txt)로 가져온다. 

> hdfs dfs -get /user/cloudera/output/part-r-00000 /home/cloudera/wordcount.txt


이상으로 VM에서 하둡 맵리듀스 잡을 실행해보았다. 

본 강의 내용은 University of California, San Diego의 나타샤 발락(Natasha Balac) 교수의 자료를 참고했다. 


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함