아파치 진영을 중심으로 하둡 기반의 다양한 어플리케이션을 통해서 실시간 처리, 기계학습, 그래프 분석 등을 수행하고 있다. 하둡의 기본 개념이 구글 시스템에서 시작된 만큼 먼저 구글의 분산 처리 구성을 살펴본다. 그리고 아파치에서 제공하는 하둡 에코시스템의 구성을 알아본 후, 클라우데라, 페이스북, 야후, 링크드인 등에서 이를 활용하는 구조를 정리해 본다. 결국 회사의 용도에 맞춰서 기술들을 잘 조합해서 사용하는 것이 관건인 듯하다. 물론 필요에 따라 클라우데라의 임팔라나 링크드인의 카프카와 같이 직접 만들수도 있지만 말이다. 구글 빅데이터 스택 구글은 Chubby라는 'Coordination'을 사용하고, 데이터스토어로는 Big Table을 쓰고 있다. 그리고 맵리듀스의 상위 언어로 Sawzall을 사..
맵리듀스 개요 맵리듀스(MapReduce)는 기존 하드웨어를 활용한 분산 프로그래밍 모델로서, 대용량 데이터를 빠르고 안전하기 처리하기 위해 만들었다. 2014년 OSDI 컨퍼런스에서 구글이 "MapReduce : Simplified Data Processing on Large Clusters" 논문을 발표한 이후, 맵리듀스는 관심을 받기 시작했다. 그리고 오픈소스 루씬(Lucene)의 개발자인 더그 커팅(Doug Cutting)이 하둡(Hadoop)을 만들면서 맵리듀스가 널리 알려졌다. 하둡 오픈 소스 프로젝트는 구글의 분산 기술(GFS, MapReduce)을 기반으로 2006년부터 시작했다. 하둡 파일 시스템(HDFS)는 대규모 분산 파일 시스템 구축의 성능과 안전정을 보여줬고, 맵리듀스는 HDFS에..
하둡과 관련해 HDFS(하둡 파일 시스템), MapReduce(맵리듀스)를 기본적으로 알아야 합니다. 그러나 때로는 하둡 에코 시스템으로 제공하는 도구들을 이해하면 좀 더 빠르고 쉽게 하둡 프로그래밍을 할 수 있습니다. 이번에는 하둡과 관련된 많은 프로젝트들 중에서 피그(pig), HBase, 주키퍼(Zookeeper)에 대해서 간략하게 개념을 정리하려고 합니다. 해당 개념들을 살펴보고 추후 필요할 때 활용하면 좋겠네요. 피그(Pig) 피그는 대용량 데이터셋을 좀 더 고차원적으로 처리할 수 있도록 합니다. 맵리듀스에서 처리할 수 없는 부분들을 지원한다고 하는데요. 대표적으로 조인(Join)과 같은 연산이 가능합니다. 피그는 다중 값과 중첩된 형태를 보이는 좀 더 다양한 데이터 구조를 지원하고, 데이터에 ..
하둡(Hadoop) 프로젝트를 진행할 때 사람들의 고민이 무엇일까? 하고 생각해 봤습니다. Java 언어에 익숙하더라도 첫번째로 만나는 문제는 역시 맵리듀스(MapReduce)가 아닐까 합니다. 맵리듀스는 맵과 리듀스가 합쳐진 것으로 각각의 Map 함수와 Reduce 함수를 구현하고 JobClient를 통해 호출해야 합니다. 그런데 일반적으로 하둡 프로젝트에서 한번만 맵리듀스를 사용하는 경우는 거의 없습니다. 대부분 맵 리듀스를 반복적으로 사용하게 됩니다. 여기에 맵리듀스에서 기본적으로 사용하는 타입인 Text, IntWritable, LongWritable과 같은 것 이외에 객체를 사용한다든지. Key 항목이 아닌 Value에 속하는 항목으로 정렬을 하고 싶다든지, 하는 경우에 많은 개발자들이 어려움을..
Cloudera Impala 소개 Cloudera Impala는 SQL 형태로 Hadoop의 데이터를 이용해 실시간으로 분석할 수 있는 시스템이다. 이것은 MapReduce 프레임워크를 사용할 때, 배치 처리로 인한 지연이 발생하는 것을 최적화 한 것이다. 구글에서도 2006년부터 기존의 GFS와 MapReduce에 실시간 처리가 가능한 Dremel을 본격적으로 활용하고 있다. Apache Hadoop의 HDFS와 MapReduce가 구글의 GFS, MapReduce 논문을 기반으로 만들어진 것처럼, Cloudera Impala도 2010년 발표된 구글의 Dremel 논문을 기반으로 하고 있다. 다만, SQL과 유사한 형태를 하둡에서 활용하기 위해 Hive의 쿼리 방식의 인터페이스를 가져왔다. 하둡을 C..
카프카(Kafka)는 대용량 실시간 처리를 위해 사용하는 메시징 시스템으로 Pub-Sub 구조로 되어 있다. LinkedIn, Twitter, Netflix, Tumblr, Foursquare 등 대용량을 다루는 업체들이 주로 카프카를 사용하고 있다. 물론 카프라 단독으로 실시간 처리를 구성하지 않고, 스톰(Storm) / 하둡(Hadoop) / HBase 등과 연동해서 활용하는 것이다. 아직까지 국내에서 카프카를 실제 서비스에 많이 활용하고 있지는 않고 오히려 레디스(Redis)와 같은 메모리(In-Memory) 기반의 메시지 큐나 멤캐쉬(memcached)를 더 많이 사용하는 것 같다. 하지만 전세계 40여개가 넘는 대용량을 다루는 업체들이 어떻게 카프카(Kafka)를 사용하고 있는지 한번 정리해 보..
"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다." 최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다. 그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까? 먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한..
미니 서평 빅데이터의 높은 관심 최근 TV 프로그램을 보니 20회 특집에서 빅데이터 분석을 통한 해당 프로그램의 현재 상태를 진단하는 것을 봤는데요. 빅데이터가 이제는 전문가들만이 사용하는 것이 아니라, 누구나 이용할 수 있는 단계로 점차 나아가고 있다는 생각이 들었습니다. 실제로 빅데이터 관련 서적들이 봇물처럼 쏟아져 나오고 있으니 그만큼 관심이 높다는 것이겠죠. 제가 이미 읽었던 기술 부분이 아닌 빅데이터 개념과 관련된 책들도 다음과 같네요. 2013/02/22 - [리뷰/도서] - 빅데이터가 만드는 비즈니스 미래지도 - 미래 경제를 움직이는 거대한 데이터 혁명 2012/12/24 - [리뷰/도서] - 빅데이터 경영을 바꾸다 - 빅데이터 시대의 새로운 기회를 찾아서 2012/11/26 - [리뷰/도서..
빅데이터를 위해서는 크게 세가지 분야의 기술이 필요합니다. 첫째, 데이터의 획득 및 생성하기 위한 센서나 디바이스에 적용할 기술이 있습니다. 둘째, 데이터를 축적하기 위해 병렬처리와 같은 아키텍처나 스토리지가 관련 기술이 필요합니다. 마지막으로 축적된 데이터를 분석하기 위해 하둡과 같은 기술들이 필요하겠죠. 이번에는 축적된 빅데이터를 분석하는 기술에 대해서 한번 정리해 보려고 합니다. 흔히 빅데이터 = 하둡 이라고 생각을 많이 합니다. 전혀 틀린 이야기는 아니지만 하둡이 만능은 아니라는 점을 확실히 이야기 하고 싶습니다. 하둡은 다음과 같은 장점 때문에 빅데이터의 분석 기술로 각광받고 있습니다. 대용량 비정형 데이터를 기반으로 함.HDFS와 맵리듀스를 활용하여 쉽게 분산 처리가 가능함.PC급의 하드웨어 ..
R 소개빅데이터 처리 기술 중에 최근 인기있는 R 에 대해서 간략하게 소개합니다. R은 통계, 그래픽 작업, 통계적 프로그래밍을 하는데 매우 효과적인 툴입니다. 기존의 SAS, SPSS와 같은 통계 처리 프로그램들이 있었는데요. R은 이러한 프로그램을 대신할 수 있는 오픈소스 프로젝트로서 R에서 사용할 수 있는 애드온만 2천개가 넘을 정도로 널리 사용되고 있습니다. 여러분이 R에 대한 자료를 검색하기는 쉽지 않습니다. 당연히 R을 검색하면 R과 관련없는 수많은 자료들이 나오기 때문이죠. R에 대한 자료를 가장 많이 가지고 있는 곳은 당연히 R 프로젝트 사이트입니다. http://www.r-project.org 위 사이트에서 R 프로그램 다운로드, 애드온 패키지, 문서, 소스 코드 등을 받아서 살펴볼 수 ..
- Total
- Today
- Yesterday
- 빅데이터
- 모바일
- 애플
- 하둡
- SCORM
- Hadoop
- 통계
- 프로젝트
- r
- 마케팅
- 분석
- 구글
- 클라우드
- XML
- 아이폰
- 디자인
- 자바
- 책
- 자바스크립트
- 세미나
- 맥
- 도서
- fingra.ph
- java
- ms
- HTML
- mysql
- 웹
- 안드로이드
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |