아파치 진영을 중심으로 하둡 기반의 다양한 어플리케이션을 통해서 실시간 처리, 기계학습, 그래프 분석 등을 수행하고 있다. 하둡의 기본 개념이 구글 시스템에서 시작된 만큼 먼저 구글의 분산 처리 구성을 살펴본다. 그리고 아파치에서 제공하는 하둡 에코시스템의 구성을 알아본 후, 클라우데라, 페이스북, 야후, 링크드인 등에서 이를 활용하는 구조를 정리해 본다. 결국 회사의 용도에 맞춰서 기술들을 잘 조합해서 사용하는 것이 관건인 듯하다. 물론 필요에 따라 클라우데라의 임팔라나 링크드인의 카프카와 같이 직접 만들수도 있지만 말이다. 구글 빅데이터 스택 구글은 Chubby라는 'Coordination'을 사용하고, 데이터스토어로는 Big Table을 쓰고 있다. 그리고 맵리듀스의 상위 언어로 Sawzall을 사..
휴대폰 뿐만 아니라 TV, 컴퓨터가 상호간 실시간 대화를 한다고 상상해보자. 영상 통화를 하면서 동시에 채팅과 P2P 데이터 공유까지 가능하다면... 이것이 현재 떠오르고 있는 WebRTC 기술의 비전이다. WebRTC를 활용한 아자르 국내 업체 하이퍼커넥트가 만든 영상 채팅으로 전세계 친구를 찾는 앱 "아자르(Azar)"도 WebRTC 기술을 활용한다. 아자르는 2013년 앱 론칭 후, 6개월만에 500만 다운로드, 11개월만에 1,000만 다운로드를 달성했다. (현재 2,000만 가입자 수...) 2011년 발표된 WebRTC 기술과 영상 채팅 서비스를 잘 결합한 성공 모델이라 할 수 있을 듯 하다. WebRTC란? WebRTC는 웹을 위한 실시간 통신 규격을 의미한다. 오디오나 비디오 스트림을 P2..
맵리듀스 개요 맵리듀스(MapReduce)는 기존 하드웨어를 활용한 분산 프로그래밍 모델로서, 대용량 데이터를 빠르고 안전하기 처리하기 위해 만들었다. 2014년 OSDI 컨퍼런스에서 구글이 "MapReduce : Simplified Data Processing on Large Clusters" 논문을 발표한 이후, 맵리듀스는 관심을 받기 시작했다. 그리고 오픈소스 루씬(Lucene)의 개발자인 더그 커팅(Doug Cutting)이 하둡(Hadoop)을 만들면서 맵리듀스가 널리 알려졌다. 하둡 오픈 소스 프로젝트는 구글의 분산 기술(GFS, MapReduce)을 기반으로 2006년부터 시작했다. 하둡 파일 시스템(HDFS)는 대규모 분산 파일 시스템 구축의 성능과 안전정을 보여줬고, 맵리듀스는 HDFS에..
하둡(Hadoop) 프로젝트를 진행할 때 사람들의 고민이 무엇일까? 하고 생각해 봤습니다. Java 언어에 익숙하더라도 첫번째로 만나는 문제는 역시 맵리듀스(MapReduce)가 아닐까 합니다. 맵리듀스는 맵과 리듀스가 합쳐진 것으로 각각의 Map 함수와 Reduce 함수를 구현하고 JobClient를 통해 호출해야 합니다. 그런데 일반적으로 하둡 프로젝트에서 한번만 맵리듀스를 사용하는 경우는 거의 없습니다. 대부분 맵 리듀스를 반복적으로 사용하게 됩니다. 여기에 맵리듀스에서 기본적으로 사용하는 타입인 Text, IntWritable, LongWritable과 같은 것 이외에 객체를 사용한다든지. Key 항목이 아닌 Value에 속하는 항목으로 정렬을 하고 싶다든지, 하는 경우에 많은 개발자들이 어려움을..
웹과 인터넷 환경에서 검색은 가장 중요한 플랫폼이었다. 실제로 한 시대를 풍미했던 최고의 인터넷 기업들은 모두 훌륭한 검색 엔진을 보유하고 있었다. 알타비스타, 야후, 그리고 구글까지 당시 최고의 기술로 검색 서비스를 제공했다. 국내에서도 한미르, 엠파스, 심마니, 네이트, 다음, 네이버 등이 있었다. 하지만 최근 모바일 환경의 트래픽이 점차 늘어남에 따라 웹 검색 뿐만 아니라 모바일 검색에 대한 관심도 높아지고 있다. 물론 모바일 웹은 기존의 웹 검색엔진을 그대로 활용할 수 있지만 문제는 바로 모바일 앱(어플리케이션)이다. 모바일 앱 내부의 자체 검색은 할 수 있지만 여러 모바일 앱 컨텐츠를 외부의 검색으로 활용하기 어렵다는 문제를 가지고 있다. 실제로 모바일 앱 검색 서비스를 제공하던 퀵시(Quixe..
미니서평저자인 스티븐 레비는 10년여동안 구글에 대한 글을 써왔다고 합니다. 그래서인지 이제까지 봤던 구글과 관련된 다른 책보다는 구글 내부의 이야기를 자세히 서술하고 있습니다. 인터넷이라는 거인의 어깨 위에 올라 앉아 세상을 더 좋게, 좀더 평등하고 더 힘을 주는 곳으로 만들기 위해 고민한다. 인터넷 거인 구글 구글은 페이지랭크로 유명해진 검색엔진부터 시작해서, 현재는 모바일 OS인 안드로이드와 동영상 서비스인 유투브까지 확장하면서 진정 인터넷이라는 거인의 어깨 위에 올라온 느낌입니다. 지메일, 구글 클라우드, 구글 앱 엔진, 구글 플러스, 구글 글래스, 구글 도서, 구글 TV, 구글 자동차.... 이와 같이 이미 성공한 서비스도 있고, 앞으로의 서비스들을 계속해서 연구/개발하고 발전시켜 나가고 있지요..
빅데이터의 사례로 가장 많이 이야기하는 것이 바로 "Google 독감 트렌드"입니다. 구글에 집계된 검색어를 기반으로 세계 여러 국가의 독감 유행 수준에 대한 예상 수치를 제공하는 것인데요. 이를 기반으로 빅데이터에 대한 전략이 어떻게 만들어졌는지 한번 생각해 보기로 했습니다. 데이터 수집구글 검색어가 자동으로 구글의 서버에 쌓이게 되므로 데이터의 축적은 기본적으로 이루어졌을 것입니다. 또한 검색어는 시간에 따른 분포를 나타낸다는 점과 IP를 통한 위치를 파악할 수 있다는 것을 활용한 것이라 볼 수 있습니다. 즉, 검색어, 시간대, 그리고 위치 정보를 활용해서 독감 트렌드를 분석해 낸 것이죠. 먼저 독감(ILI - influenza likeness illness)과 관련된 키워드(ILI-related q..
빅데이터, 경영을 바꾸다 - 함유근.채승병 지음/삼성경제연구소 데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력, 가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력이야말로 앞으로 10년간 엄청나게 중요한 능력이 될 것이다. - 할 배리언, 구글 수석 경제학자 과거를 돌이켜 보면 세상을 바꾸는 기술들이 분명히 있었습니다. 80년대 후반 처음 봤던 개인용 컴퓨터, 90년대 중반부터 사용하기 시작한 인터넷, 2000대 후반의 스마트폰 등.. 그러나 업계의 모든 기대를 받았지만 떠오르지 못하고 사라진 기술들도 많습니다. 하지만 잘 안되던 기술들이 다른 이름으로 융합되고 새롭게 나타나서 다시 성공하기도 하는 것 같습니다. 스마트폰도 2000년대 초반 PDA등의 실패가 지금 성공의 기초가 되었다..
오늘 블로그를 들어가고 깜짝 놀랐네요. 보통 크롬을 웹 브라우저로 자주 사용하고 있는데.. 빨간색 바탕에 다음과 같은 화면이 나오더군요.. ㅠㅠ 무슨 문제인지 확인하기 위해 "이 웹사이트 관련 문제점 세부사항"을 클릭해 봤습니다. 내용을 살펴보니 멀웨어를 배포한다고 하는데 중계 역할을 알라딘 사이트에서 수행하는 것 같았습니다. 그래서 일단 알라딘 ttb2를 가져오는 스크립트를 제거했습니다. 아마도 알라딘의 ttb2 서버에 문제가 있는 것 같네요. 하지만 스크립트를 제거해도 여전히 크롬에서는 악성코드 페이지로 나옵니다. 그래서 위 화면의 하단의 "Google 웹마스터 도구"를 클릭해서 구글로 "검토 요청을 보내야 합니다. 일단, 검토 요청은 보내놨는데.. 내일 중으로 다시 한번 확인해 봐야겠네요.. 개인 ..
올해부터 빅데이터에 관심이 부쩍 높아진 것 같습니다. 클라우드 환경이 대중화되고 하둡 등 분산 처리 기술이 일반화 되면서 자연스럽게 빅데이터에 대한 관심도 늘어나는 것 같습니다. 하지만 아직도 빅데이터를 단순히 대용량 데이터로만 생각하는 경향이 있어서 빅데이터의 의미와 실제 사례를 간략하게 정리해 보려고 합니다. 빅데이터 확장 배경 왜 빅데이터에 관심을 가지게 되었을까요? 먼저 하드웨어가 발달하고 ERP, CRM과 같은 것을 통해 데이터가 충분히 축적되었다는 것입니다. 이렇게 축적된 데이터를 통해 비즈니스에 기여할 수 있는 인사이트를 만들 수 있을까? 하는 고민이 빅데이터의 시작이라고 생각합니다. 모든 IT 관련 이슈들이 그러하듯 빅데이터란 것도 하루아침에 나타난 것이 아닙니다. 예전에 데이터베이스에서도..
- Total
- Today
- Yesterday
- 클라우드
- SCORM
- fingra.ph
- Hadoop
- 모바일
- 책
- 아이폰
- 통계
- 자바
- HTML
- 프로젝트
- 안드로이드
- 도서
- XML
- 분석
- 애플
- 디자인
- mysql
- r
- 자바스크립트
- 구글
- ms
- 맥
- java
- 세미나
- 빅데이터
- 하둡
- 마케팅
- 웹
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |