티스토리 뷰

아파치 진영을 중심으로 하둡 기반의 다양한 어플리케이션을 통해서 실시간 처리, 기계학습, 그래프 분석 등을 수행하고 있다. 

하둡의 기본 개념이 구글 시스템에서 시작된 만큼 먼저 구글의 분산 처리 구성을 살펴본다. 

그리고 아파치에서 제공하는 하둡 에코시스템의 구성을 알아본 후, 

클라우데라, 페이스북, 야후, 링크드인 등에서 이를 활용하는 구조를 정리해 본다. 


결국 회사의 용도에 맞춰서 기술들을 잘 조합해서 사용하는 것이 관건인 듯하다. 

물론 필요에 따라 클라우데라의 임팔라나 링크드인의 카프카와 같이 직접 만들수도 있지만 말이다. 


구글 빅데이터 스택

구글은 Chubby라는 'Coordination'을 사용하고, 데이터스토어로는 Big Table을 쓰고 있다. 

그리고 맵리듀스의 상위 언어로 Sawzall을 사용한다. 데이터 통합에는 MySQL Gateway를 이용한다. 


아파치 하둡 에코시스템

아파치에서 제공하는 하둡 에코시스템을 살펴보면 'Coordination'으로 주키퍼를 사용하고, 

데이터 스토어로 HBase를 추천하고 있다. 

맵리듀스의 상위 언어로 Pig와 Hive 같은 것을 추천하고 있고, 데이터 통합은 Sqoop, Flume을 이야기 한다. 


클라우데라, 페이스북, 링크드인, 야후의 하둡 시스템 구성 

마지막으로 각 회사별로 하둡 시스템을 어떻게 구성해서 사용하는지 살펴보도록 하자. 

먼저 하둡 배포판을 제공하는 클라우데라의 구성은 다음과 같다. 

아파치의 하둡 에코시스템과 유사하지만 웹 기반의 UI Framework인 Hue를 제공하고 있는 특징이 있다. 


페이스북은 데이터 통합에 있어 Sqoop이나 Flume 대신 Scibe를 사용하는 점이 다르다. 

대부분의 회사들이 데이터 특성이 있어서인지 데이터 통합 부분은 별도로 구축해서 사용하는 경우가 많은 듯 하다. 

그리고 상위 언어로 HiveQL을 활용하는 Hive를 주로 사용한다. 

 

링크드인은 데이터 통합에 Sqoop과 Kafka를 함께 사용한다. 

Kafka는 실시간 분산 메시징 시스템으로 링크드인에서 개발한 것이다. 

그리고 데이터 스토어로 Voldemort를 사용하고 Pig와 Hive를 모두 사용하고 있다. 


야후는 데이터 통합에 있어 Data Highway를 사용하고 있다. 


이상으로 구글부터 시작해서 각 회사별 하둡 에코시스템의 구성을 살펴봤다. 

Spark의 등장과 함께 하둡 시스템의 기본적인 구성은 이제 정리가 되어 가는 듯 하다. 

어떻게 잘 조합해서 자신의 플랫폼에 적합한 최적의 시스템으로 구성하느냐에 따라 활용도가 결정될 듯 하다. 


이제 빅데이터는 개념과 시스템 구성을 넘어서 진정한 분석을 통한 가치 창출로 넘어가는 단계인 듯 하다. 


댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함