미니 서평 "말과 글은 마음의 작용, 생각의 산물이다" 산고(産苦)의 아픔없이 글을 쓰고 있었던 건 아닐까? 이공계이므로 글쓰는 자체로 충분하다고 자족한 듯하다. 저자는 말한다. "'글 쓰는 것'과 '글 고치는 것'은 동전의 양면처럼 나눌 수 없다"고― 일필휘지(一筆揮之)로 완성하는 것이 아니라, 고치고 또 고쳐야 좋은 글이 나올 수 있다. 쉬운 글, 명쾌한 문장, 정확한 수식, 그리고 아름다운 문장‥ "만 리 길도 한 걸음으로 시작된다" ― 과거의 글들을 살펴보니, 먼저 IT 관련 기술에 대한 번역투의 글들을 고쳐야겠다. 밑줄 긋기 주요 4단식 짜임 그리스 변론형A 도입(화제 제시) - 진술(주제 설명) - 논증(예증/사례) - 결어('진술'의 강조) 그리스 변론형B 진술('주제'로 직행) - 증명('..
맵리듀스 개요 맵리듀스(MapReduce)는 기존 하드웨어를 활용한 분산 프로그래밍 모델로서, 대용량 데이터를 빠르고 안전하기 처리하기 위해 만들었다. 2014년 OSDI 컨퍼런스에서 구글이 "MapReduce : Simplified Data Processing on Large Clusters" 논문을 발표한 이후, 맵리듀스는 관심을 받기 시작했다. 그리고 오픈소스 루씬(Lucene)의 개발자인 더그 커팅(Doug Cutting)이 하둡(Hadoop)을 만들면서 맵리듀스가 널리 알려졌다. 하둡 오픈 소스 프로젝트는 구글의 분산 기술(GFS, MapReduce)을 기반으로 2006년부터 시작했다. 하둡 파일 시스템(HDFS)는 대규모 분산 파일 시스템 구축의 성능과 안전정을 보여줬고, 맵리듀스는 HDFS에..
미니 서평 게리 해멀의 경영의 미래를 읽으면서 경영학의 문외한인지라 내용은 어려웠다. 그러나 20세기의 조직, 관리, 효율성을 강조하던 경역학이 21세기에는 새로운 형태로 나아가야 한다는 전반적인 흐름은 이해할 수 있었다. 프레드릭 W. 테일러(Frederic W. Taylor), 에드워즈 데밍(W. Edwards Demming)등의 과학적 관리 기법이나 품질관리 기법등을 통해 기업들은 오랜 시간 성장해왔고 효율성의 극대화를 가져올 수 있었다. 그러나 다니엘 핑크가 이야기하는 하이컨셉의 시대에는 이러한 경영 기법으로는 창의성을 가져올 수 없을 것이다. 책의 실험을 통해 나타나는 것처럼 집단 지식을 활용하여 더 나은 의사결정을 내리는 것도 한 방법이 될 수 있을 것이다. 즉, 직원들을 조직적으로 통제와 관..
하둡과 관련해 HDFS(하둡 파일 시스템), MapReduce(맵리듀스)를 기본적으로 알아야 합니다. 그러나 때로는 하둡 에코 시스템으로 제공하는 도구들을 이해하면 좀 더 빠르고 쉽게 하둡 프로그래밍을 할 수 있습니다. 이번에는 하둡과 관련된 많은 프로젝트들 중에서 피그(pig), HBase, 주키퍼(Zookeeper)에 대해서 간략하게 개념을 정리하려고 합니다. 해당 개념들을 살펴보고 추후 필요할 때 활용하면 좋겠네요. 피그(Pig) 피그는 대용량 데이터셋을 좀 더 고차원적으로 처리할 수 있도록 합니다. 맵리듀스에서 처리할 수 없는 부분들을 지원한다고 하는데요. 대표적으로 조인(Join)과 같은 연산이 가능합니다. 피그는 다중 값과 중첩된 형태를 보이는 좀 더 다양한 데이터 구조를 지원하고, 데이터에 ..
미니서평 총,균,쇠(Guns, Germs, and Steel)는 제레드 다이아몬드 박사가 1998년 퓰리처 상을 받은 명저로 잘 알려져 있다. 저자의 해박한 지식, 과학적인 탐구와 분석을 보면서 그저 감탄만 나올 뿐이었다. 이런 책을 이제야 봤다는 점이 부끄럽기도 하지만, 두께만큼이나 읽고 난 후 마음도 꽉 찬 느낌이다. 총,균,쇠는 뉴기니인인 얄리의 작은 질문으로부터 시작된다. 당신네 백인들은 그렇게 많은 화물을 발전시켜 뉴기니까지 가져왔는데 어째서 우리 흑인들은 그런 화물들을 만들지 못한 겁니까? 과연 인종 차별적인 이런 질문이 맞는 것일까? 백인들은 태생적으로 우월해서 전 세계를 지배하게 되었고, 흑인들은, 아프리카 원주민은, 아메리카의 인디언들은.. 선천적인 이유로 피지배인이 될 수 밖에 없었을까..
하둡(Hadoop) 프로젝트를 진행할 때 사람들의 고민이 무엇일까? 하고 생각해 봤습니다. Java 언어에 익숙하더라도 첫번째로 만나는 문제는 역시 맵리듀스(MapReduce)가 아닐까 합니다. 맵리듀스는 맵과 리듀스가 합쳐진 것으로 각각의 Map 함수와 Reduce 함수를 구현하고 JobClient를 통해 호출해야 합니다. 그런데 일반적으로 하둡 프로젝트에서 한번만 맵리듀스를 사용하는 경우는 거의 없습니다. 대부분 맵 리듀스를 반복적으로 사용하게 됩니다. 여기에 맵리듀스에서 기본적으로 사용하는 타입인 Text, IntWritable, LongWritable과 같은 것 이외에 객체를 사용한다든지. Key 항목이 아닌 Value에 속하는 항목으로 정렬을 하고 싶다든지, 하는 경우에 많은 개발자들이 어려움을..
Cloudera Impala 소개 Cloudera Impala는 SQL 형태로 Hadoop의 데이터를 이용해 실시간으로 분석할 수 있는 시스템이다. 이것은 MapReduce 프레임워크를 사용할 때, 배치 처리로 인한 지연이 발생하는 것을 최적화 한 것이다. 구글에서도 2006년부터 기존의 GFS와 MapReduce에 실시간 처리가 가능한 Dremel을 본격적으로 활용하고 있다. Apache Hadoop의 HDFS와 MapReduce가 구글의 GFS, MapReduce 논문을 기반으로 만들어진 것처럼, Cloudera Impala도 2010년 발표된 구글의 Dremel 논문을 기반으로 하고 있다. 다만, SQL과 유사한 형태를 하둡에서 활용하기 위해 Hive의 쿼리 방식의 인터페이스를 가져왔다. 하둡을 C..
- Total
- Today
- Yesterday
- ms
- 안드로이드
- SCORM
- 마케팅
- 도서
- 분석
- 세미나
- 디자인
- XML
- Hadoop
- 빅데이터
- 구글
- r
- fingra.ph
- 클라우드
- 통계
- 맥
- 자바스크립트
- 자바
- java
- 프로젝트
- 책
- mysql
- 아이폰
- HTML
- 애플
- 모바일
- 하둡
- 웹
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |