티스토리 뷰
passwd 파일에서 아이디, 이름, 홈디렉토리를 가져오는 피그 예제를 살펴봤다.
이번에는 하둡 완벽 가이드에 나왔던 연도별 최고 온도를 계산하는 예제를 살펴보기로 하자.
해당 예제에 대한 설명은 Hive & Pig - 하둡(Hadoop)의 맵리듀스를 보다 편하게~ 를 참고하기 바란다.
1. 먼저 예제로 사용할 sample.txt 파일을 만들어 보자.
> vi sample.txt
2. 년도 온도 품질 순으로 탭을 공백으로 다음과 같이 입력하고 저장한다.
3. 생성한 sample.txt 파일을 하둡 파일 시스템의 /user/cloudera에 업로드하고 확인한다.
> hdfs dfs -put sample.txt /user/cloudera
> hdfs dfs -ls /user/cloudera
4. pig를 실행하고 grunt shell에서 다음과 같이 명령어를 입력한다.
> pig -x mapreduce
grunt> records = LOAD ‘/user/cloudera/sample.txt’
>> AS(year: chararray, temperature:int, quality:int);
grunt> filtered_records = FILTER records BY temperature != 9999
>> AND quality == 1
grunt> grouped_records = Group filtered_records BY year;
grunt> max_temp = FOREACH grouped_records GENERATE group,
>> MAX(filtered_records.temperature);
grunt> DUMP max_temp;
5. 결과 값을 확인하면 다음과 같이 1949년에 111, 1950년에 22가 나온 것을 확인할 수 있다.
'Cloud&BigData > 하둡(Hadoop)' 카테고리의 다른 글
하둡 스트리밍을 활용한 파이썬 word counting 예제~ (0) | 2016.01.15 |
---|---|
HDFS 명령어 테스트~ (0) | 2016.01.13 |
HBase 예제 살펴보기~ (0) | 2016.01.08 |
Hive 예제 살펴보기~ (0) | 2016.01.07 |
Pig 첫번째 예제 VM에서 실행하기~ (0) | 2016.01.06 |
- Total
- Today
- Yesterday
- 책
- 모바일
- 프로젝트
- java
- ms
- 자바스크립트
- 구글
- 애플
- 도서
- 디자인
- 빅데이터
- SCORM
- 분석
- XML
- 아이폰
- 맥
- 마케팅
- 안드로이드
- 세미나
- 클라우드
- 통계
- 자바
- 웹
- mysql
- r
- HTML
- fingra.ph
- Hadoop
- 하둡
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |