'빅데이터'에 해당되는 글 30건

  1. 2017.03.11 클라우드슈밥의 제4차 산업혁명
  2. 2017.02.01 빅데이터가 만드는 세상 - 데이터는 알고 있다. 삶과 일, 그리고 생각하는 방식을 바꿔놓을 대혁명
  3. 2016.10.12 빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #2
  4. 2015.12.14 가트너 2015 기술 트랜드 분석 - 시민 데이터 과학에서 IoT까지
  5. 2015.08.12 빅데이터 분석, SI사고방식 버려라
  6. 2015.06.15 빅데이터 분석 무료 교육 안내~
  7. 2015.01.05 고슴도치와 여우~ 누가 빅데이터 분석에 적합할까?
  8. 2014.05.24 포스트 스마트폰, 경계의 붕괴 (1)
  9. 2014.03.13 단기간에 빅데이터 인력 양성은 허구다
  10. 2014.03.03 실시간 처리를 위한 분산 메시징 시스템 카프카(Kafka)

클라우드슈밥의 제4차 산업혁명

|



미니서평

제4차 산업혁명이 연일 기사화되고 있다. 

작년 초 이 책의 저자인 클라우드슈밥 회장이 세계경제포럼에서 제4차 산업혁명을 언급하면서 시작되었다. 


증기기관에서 전기, 그리고 컴퓨터로 이어지는 지금까지의 산업혁명은 시간이 경과된 다음에 명명되었다.

그러나 제4차 산업혁명은 그 시기가 도래하는 초기에 화두가 되고 있다. 


빅데이터, 인공지능, 사물인터넷, 블록체인 등 기술의 발전에 따라 앞으로의 불확실성이 높아짐에 따라 나타난 현상으로 보인다. 

불확실성(uncertainty)...

현대 사회를 관통하는 가장 적절한 단어가 아닐까 하는 생각을 한다. 


프랑스 계몽시대의 철학자이자 작가인 볼테르는 '의심은 불쾌한 일이지만, 확신은 어리석은 일이다'라고 말했다. 

실제로 제4차 산업혁명이 어떤 결과를 낳게 될지, 우리가 안다고 확신한다면 지나치게 순진한 생각일 것이다. 

그러나 그것이 어떤 방향일지에 대한 공포와 불확실성으로 얼어붙는다면 이 역시 순진한 행동이다. 

책 전반에 걸쳐 강조해온 것처럼 제4차 산업혁명의 최종 목적지는 

결국 그 잠재력이 최대한 발휘될 수 있도록 만드는 우리의 능력에 달려 있다.


불확실한 시대에 우리는 어떻게 미래를 준비해야 할까? 


저자는 제4차 산업혁명이 가져올 변화와 영향력을 소개하고 

마지막에 제4차 산업혁명의 방법론을 제시하고 있다. 


전산 전공인 필자가 읽기에도 쉬운 책은 아니었지만, 

앞으로의 미래 변화를 파악하려면 한 번쯤은 꼭 읽어보기 바란다. 


클라우드 슈밥 회장이 제시한 제4차 산업혁명의 방법론으로 마무리한다. 


체내 삽입형 기기, 디지털 정체성, 새로운 인터페이스로서의 시각, 웨어러블 인터넷, 유비쿼터스 컴퓨팅

주머니 속 슈퍼컴퓨터, 누구나 사용할 수 있는 저장소, 사물 인터넷, 커넥티드 홈, 스마트 도시, 빅데이터를 활용한 의사결정

자율주행자동차, 인공지능과 의사결정, 인공지능과 화이트칼라, 로봇공학과 서비스, 비트코인과 블록체인

공유경제, 정부와 블록체인, 3D 프리팅 기술과 제조업, 3D 프린팅 기술과 인간의 건강, 3D 프린팅 기술과 소비자 제품

맞춤형 아기, 신경기술


밑줄긋기

---p25

1760~1840년경에 걸쳐 발생한 제1차 산업혁명은 철도 건설과 증기기관의 발명을 바탕으로 기계에 의한 생산을 이끌었다. 

19세기 말에서 20세기 초까지 이어진 제2차 산업혁명은 전기와 생산 조립 라인의 출현으로 대량생산을 가능하게 했다. 

1960년대에 시작된 제3차 산업혁명은 반도체와 메인프레임 컴퓨팅(1960년대), PC(1970년대와 80년대), 인터넷(1990년대)이 발달을 주도했다.

그래서 우리는 이를 '컴퓨터 혁명' 혹은 '디지털 혁명'이라고도 말한다.


이 세 가지 산업혁명을 설명하는 다양한 정의와 학문적 논의를 살펴봤을 때, 

오늘날 우리는 제4차 산업혁명의 시작점에 있다고 말할 수 있다. 

디지털 혁명을 기반으로 한 제4차 산업혁명은 21세기의 시작과 동시에 출현했다. 

유비쿼터스 모바일 인터넷, 더 저렴하면서도 작고 강력해진 센서, 인공지능과 기계학습이 제4차 산업혁명의 특징이다. 

---p44

온디멘드 경제는 "플랫폼 구축과 기초 자산 보유, 둘 중 무엇이 더 가치 있는가?"라는 근본적인 질문을 던진다. 

미디어 전략가인 톰 굿윈은 2015년 3월 '테크크런치'에 아래와 같은 글을 기고했다. 

"세계에서 가장 큰 택시 기업인 우버는 소유하고 있는 자동차가 없고, 

세계에서 가장 많이 활용되는 미디어인 페이스북은 콘텐츠를 생산하지 않는다. 

세계에서 가장 가치 있는 소매업체인 알리바바는 물품 목록이 없으며, 

세계에서 가장 큰 숙박 제공업체인 에어비앤비는 소유한 부동산이 없다."

---p64

단언컨대 제4차 산업혁명 경제 속 경쟁력 규칙이 실제로 이전과 다를 것이다. 

경쟁력을 갖추기 위해서는 기업과 국가 모두 반드시 모든 면에서 혁신에 앞장서야 한다. 

다시 말해 가격을 인하해 경쟁력을 갖추려는 방식은 이제 비효율적이고, 

대신 재화와 서비스를 더욱 혁신적인 방법으로 제공해야만 경쟁력을 확보할 수 있을 것이다. 

실제로 기존 기업들은 다른 산업 분야와 국가의 파괴적 혁신가와 이노베이터의 부상 때문에 굉장한 압박을 받고 있다. 

현재의 흐름에 따라 혁신 생태계를 구축하려는 노력이 없는 국가 역시 마찬가지 상황을 겪게 될 것이다. 

---p112

시민사회의 힘이 커지고 인구의 분열과 양극화가 심화됨에 따라 통치는 더 어려워지고 

정부의 효율성마저 떨어지는 정치 체제가 나타날 수 있다. 

새로운 과학, 기술, 경제 및 사회 체제로 전환하는 데 정부가 핵심 파트너 역할을 해야 하는 시점에 

이러한 현상이 나타나고 있다는 사실이 특히 중요하다.

제4차 산업혁명이 정부에 미칠 영향을 가늠해볼 때, 가장 먼저 떠오르는 것은 더 잘 통치하기 위해 디지털 기술을 활용한다는 사실이다. 

정부는 더욱 강력하고 혁신적인 웹 기술의 활용을 통해 행정의 조직과 기능을 현대화한 전자정부의 확대에서부터 

투명성 및 책임성 향상 그리고 국민과의 관계 강화에 이르기까지 전반적인 업무 능력을 개선할 수 있다. 

---p148

미국 서던캘리포이나 대학교 애넌버그 커뮤니케이션 저널리즘 대학의 통신기술과 사회 전공교수로 재직 중인 

사회학자 마누엘 카스텔스 박사는 "주요 기술의 변화가 일어나는 모든 순간마다 사람들과 기업, 기관들은 변화의 깊이를 체감하지만,

변화가 가져올 영향에 대해 모르기 때문에 자주 압도당한다"라고 지적했다. 

무지로 인해 압도당하는 것이야말로 바로 우리가 경계해야 할 일이며, 

특히 현대사회를 이루는 다양한 공동체가 어떻게 형성되고 발전하며 서로 연계하는지를 감안하면 더욱 그렇다. 

---p158

이와 동시에, 놀라운 기술의 발견이 반드시 공공의 이익이 아닌 특정 집단의 이익을 위해 악용될 수 있음을 인식해야 한다. 

이론 물리학자이자 저자인 스티븐 호킹과 동료 과학자인 스튜어트 러셀, 맥스 테그마크, 프랭크 윌책은 

"인디펜던트"지에서 인공지능이 시사하는 바에 대해 아래와 같이 자신들의 의견을 밝혔다. 

"인공지능의 영향력은 단기적으로 누가 통제하느냐에 달렸지만, 

장기적으로는 결국 인공지능이 통제될 수 있을 것인가에 달려 있습니다. (...)

혜택을 누리고 위험은 피할 수 있는 확률을 높이기 위해 우리가 지금 무엇을 할 수 있는지 함께 고민해야 할 때입니다."

---p164

1978년 노벨 경제학상을 수상한 허버트 사이먼 박사는 

1971년에 이미 "정보의 풍요는 집중력의 결핍으로 이어지게 된다"라고 경고한 바 있다.

오늘날의 상황은 더욱 나빠졌다. 

특히나 '할 일'이 너무 많아 과부하가 걸리고, 지나치게 무리하며, 지속적으로 스트레스를 받고 있는 의사결정자들의 경우 

집중력의 결핍이 더욱 뚜렷하게 나타난다. 


여행작가인 피코 아이어는 자신의 책에 이런 말을 남겼다. 

"가속화의 시대에서는 느리게 가는 것만큼 행복한 일은 없다. 

집중을 방해하는 일이 많아진 시대에서 집중하는 것만큼 사치스러운 것은 없다. 

계속 해서 움직이는 세상에서 가만히 앉아 있는 것만큼 시급한 일도 없다."

---p232

블록체인은 국가에게 기회와 도전과제를 함께 제시한다. 

어떤 중앙 은행에 의해서도 규제되지 않고 감독 받지 않기 때문에 통화정책에 대한 국가의 지배력이 감소함을 의미한다. 

반면, 블록체인 자체 시스템 안에 (예를 들어, 소액거래세 같은) 새로운 과세 구조를 내장할 수 있다. 


더보기





Trackback 0 And Comment 0

빅데이터가 만드는 세상 - 데이터는 알고 있다. 삶과 일, 그리고 생각하는 방식을 바꿔놓을 대혁명

|



미니서평

옥스퍼드 대학 교수인 빅토르 마이어 쇤버거 교수와 이코노미스트의 기자인 케네스 쿠키어가 쓴 빅데이터와 관련된 이야기다. 

흔히 통계 분석과 빅데이터 분석을 동일하게 인식하는 경향이 있는데 

두 저자는 전문가 답게 데이터의 차이, 즉 일부에서 전체로의 변화로 빅데이터를 규정하면서 글을 시작한다. 


즉, 과거에는 통계 분석을 위해 샘플링된 정확하고 정밀한 데이터가 필요했지만

빅데이터 분석에서는 모든 데이터를 다루기 때문에 일부 들쭉날쭉한 데이터도 문제가 없다는 점이다. 


포도밭의 온도를 측정해야 한다고 생각해보자. 

밭 전체에 온도 센서가 하나뿐이라면 우리는 그 센서가 언제나 정확히 작동하도록 철저히 관리해야 한다. 

들쭉날쭉함은 허용되지 않는다. 

그러나 포도나무 100그루마다 센서를 설치할 거라면 좀 더 저렴하고 덜 정교한 센서를 사용해도 된다. 

이 경우 센서들 중 몇 개는 가끔 부정확한 데이터를 보고할 수도 있다. 

하지만 개별 수치는 틀렸을지 몰라도 많은 측정 데이터가 집계된 결과는 좀 더 종합적인 그림을 제공할 것이다. 


이번에는 센서를 읽는 횟수를 증가시킨다고 생각해보자.

1분에 한 번씩 측정을 한다면 데이터가 도착하는 순서는 완벽하게 시간순이라고 확신해도 좋을 것이다. 

하지만 1초에 10회, 혹은 100회를 측정한다면 순서가 정확한지 확신하기는 힘들 수 있다. 

순서에 대한 정보는 다소 정확성이 줄겠지만 수량이 워낙 많다 보니 엄격한 정밀성을 포기할 만한 가치가 있다. 


첫 번째 예시에서는 정보의 범위를 늘리기 위해 각 데이터의 정확성을 희생한 대신 알 수 없던 세부 정보를 얻었다. 

두 번째 예시에서는 빈도수를 늘리기 위해 정밀성을 포기한 대신 변화 양상을 알게 됐다. 

많은 경우 오류를 막으려고 하는 것보다 용인하는 편이 더 좋은 결과를 가져온다. 


그리고 빅데이터에 항상 등장하는 인과성과 상관성에 대해 설명한다. 

일반적으로 상관관계는 피어슨 상관계수나 스피어만 상관계수 등을 통해 두 변화하는 변수 사이의 상관성을 파악할 수 있다. 

물론 수백, 수천개의 변수에서 상관관계를 찾아내는 것도 쉬운 일은 아니다. 

그러나 인과관계를 파악하기 위해서는 더 많은 실험과 검증을 해봐야 하고, 때론 원인을 파악할 수 없는 경우도 많다. 


그래서 저자는 빅데이터 분석에서는 상관관계만 밝혀 내 활용하면 된다고 주장한다. 

즉, 결론만 알고 반영하면 되지 원인까지 찾아내려고 하지 말라는 것이다. 


흔히 상관관계를 알아내면 미래를 예측할 수 있고, 인관관계까지 밝혀내면 미래를 바꿀 수 있다고 말한다. 

현재 시점에서는 미래를 예측하는 것이라도 잘 하자는 것으로 받아들여진다. 


또 하나 흥미로운 점은 데이터 조합에 따른 2차 활용으로 새로운 가치를 만들어낼 수 있다는 점이다. 

이와 관련하여 관심을 가졌던 부분은 개인정보보호를 위해 현재의 개인 동의 방식에서 데이터 이용자 책임으로 바꾸자는 제안이다. 

실제로 빅데이터와 관련해 개인 동의를 받는다는 것은 현실적으로 불가능하다. 

그렇다고 100% 완벽한 비식별화, 또는 익명화도 어렵다. 

결국, 데이터를 이용하고 관리하는 주체가 책임을 지고 사용하라는 것이다.  


그러나 이럴 경우 발생할 수 있는 데이터 오남용 또는 데이터 독재를 막기 위해 

회계 감사와 같이 데이터 분석의 알고리즘 등을 검증할 수 있는 알고리즈미스트의 제안은 매우 신선했다. 


비교적 빅데이터 초기 단계인 2013년에 발간된 책임에도 불구하고 

빅데이터의 영향에 대한 정확한 진단과 위험성에 대한 경고 등이 상당히 구체적인 책이다. 


참고로 책을 보면 '빅데이터'라고 하지 않고 '빅 데이터'라고 표기되어 있다. 

그래서 구글 트랜드로 검색해 보니 우리나라와 달리 영어권에서는 "big data"로 표기하는 것이 일반적인 듯하다.



즉, 빅데이터가 하나의 단어가 아니라 데이터가 크다는 의미로 사용되는 것 같다. 

혹자는 빅 데이터의 빅은 데이터의 크기가 아니라 가치가 큰 것이라고 말하지만, 

이 책의 저자는 일부가 아닌 전체 데이터로서 빅 데이터를 이야기하는 것으로 보여진다.  



밑줄긋기

빅데이터 세상에서는 인과관계에 얽매일 필요가 없어진다. 

그 대신 우리는 패턴이나 상관성을 찾아내어 새로운 이해와 귀중한 통찰을 얻을 것이다. 

상관성은 어떤 일이 정확히 왜 벌어지고 있는지 설명하지 못할 수도 있다. 

하지만 그 일이 지금 일어나는 중이라고 경고해줄 수는 있다. 

빅데이터에서 중요한 것은 결론이지 이유가 아니다. 

어떤 현상의 원인을 항상 알아야 할 필요는 없다. 

우리는 데이터 스스로 진실을 드러내게 하면 된다. 

---

상관성에 기초한 예측은 빅데이터의 핵심이다. 

이제는 상관분석이 너무나 빈번하게 사용되는 나머지, 때로 우리는 상관분석이 미친 영향을 알아보지 못하기도 한다. 

그리고 앞으로도 이런 상관 분석의 활용은 계속해서 늘어날 것이다. 


상관성은 '이유'가 아닌 '결론'을 알려주며 이미 앞에서 보았듯이 결론을 아는 것만으로도 충분한 경우가 많다. 

---

'데이터'라는 말은 라틴어로 '사실'로서 '주어진다'는 뜻이다. 이것은 유클리드가 쓴 고전의 제목이기도 하다. 

어떤 현상을 데이터화한다는 것은 표로 만들고 분석이 가능하도록 그 현상을 수량화된 형태로 만든다는 뜻이다. 

다시 말하지만 데이터화와 디지털화는 서로 아주 다른 개념이다. 

디지털화란 아날로그 정보를 컴퓨터가 처리할 수 있도록 2진법 코드의 0과 1로 만든다는 뜻이다. 

---

지금 우리는 위대한 인프라 구축 프로젝트의 한가운데 와 있다. 

로마의 수도 시설은 도시의 성장을 가능하게 했다. 

인쇄술은 계몽주의 운동을 가능하게 했으며 신문은 민족국가가 나타나게 했다. 

하지만 이런 인프라들은 '흐름'에 초점이 맞춰져 있었다. 

물의 흐름, 지식의 흐름처럼 말이다. 

전화기도 마찬가지였고 인터넷도 그랬다. 

반면에 데이터화는 인간의 이해가 풍부해짐을 뜻한다. 

빅데이터의 도움으로 우리는 더 이상 세상을 사건의 연속으로 보지 않게 될 것이다. 

우리가 자연적 현상 혹은 사회적 현상이라고 설명하는 사건들 말이다. 

그 대신에 우리는 세상이 본질적으로 정보로 구성된 우주임을 보게 될 것이다. 

---

덴마크 암 학회의 연구 팀은 기존에 수집된 데이터를 기초로 흥미로운 접근법을 만들어냈다. 

먼저 이동전화 사업자들로부터 덴마크에 휴대전화가 도입된 이래 휴대전화에 가입한 전체 가입자 데이터를 얻었다. 

그리고 관리하던 암 환자의 기록과 덴마크 주민 학력과 가처분소득에 관한 전국적 자료를 활용했다. 

연구팀은 이 세 데이터 집합을 결합한 후 휴대전화 이용자가 비가입자보다 더 높은 암 발병률을 보였는지 조사했다. 

그리고 휴대전화 가입자 내에서는 휴대전화를 더 오래 소유한 사람이 암에 더 잘 걸렸는지 살폈다. 

결국 연구 팀은 휴대전화와 관련해서 암 발생 위험이 증가했다는 증거는 전혀 찾지 못했다. 

그리고 그런 이유로 이 연구 결과가 2011년 10월 영국의 의료저널 <BMJ>에 실렸을 때도 미디어의 주목을 거의 받지 못했다. 

하지만 만약 관련성이 발견되었더라면 이 연구는 전 세계 뉴스의 1면에 났을 것이고 '재조합 데이터' 방법론도 찬사를 받았을 것이다. 

---

구글의 수석 경제연구원인 할 배리언이 통계학자를 가장 '섹시한' 직업이라고 칭한 얘기는 유명하다.

"성공하고 싶다면 흔히 볼 수 있고 싼 것을 보충해주는 희소한 사람이 되어야 합니다." 배리언의 말이다.

"데이터는 도처에 널려 있고 전략적으로도 중요한데 여기서 희소한 것은 데이터로부터 지혜를 끌어낼 수 있는 지식이에요.

바로 그 때문에 통계 전문가들, 데이터베이스 매니저들, 기계 학습 전문가들이 굉장한 위치에 있게 되는 겁니다."

하지만 기술에 대한 지대한 관심과 데이터의 중요성을 얕보는 풍조는 얼마 못 가 사라질지도 모른다.

업계가 진화함에 따라 배리언이 말하는 기술이 흔해지면 인력 부족은 극복될 것이기 때문이다.

그리고 실제로는 데이터야말로 결정적인 구성 요소다.

---

빅데이터 초기 단계에 불과한 현재로서는 아이디어와 기술이 가장 큰 가치를 지닌 것 같다.

하지만 결국에 가면 대부분의 가치는 데이터 자체에 있을 것이다.

왜냐하면 우리는 정보를 가지고 더 많은 것을 할 수 있게 될 것이고,

데이터 보유자들은 자신이 소유한 자산의 잠재적 가치를 더 잘 알게 될 것이기 때문이다.

결과적으로 데이터 보유자들은 그 어느 때보다도 더 데이터를 꽉 움켜쥐려고 할 것이고

이에 접근하려는 외부인들에게는 높은 가격을 책정할 것이다.

다시 한 번 금광에 비유하자면 금 자체가 가장 중요해진다는 얘기다.

---

인터넷 시대가 사생활을 위협했다면 빅데이터는 사생활을 더 큰 위험에 빠뜨릴 것인가?

이것이 바로 빅데이터의 어두운 면인가?

그렇다. 그리고 이걸로 끝이 아니다.

여기서도 중요한 것은 규모의 변화가 상태의 변화를 낳는다는 점이다.

앞으로 보겠지만 이런 변화는 사생활 보호를 더 힘들게 만들 뿐만 아니라 완전히 새로운 위협 요소도 제시한다.

바로 성향에 기초한 불이익이 그것이다.

사람들이 행동하기도 전에 그들을 판단하고 벌주기 위해 빅데이터 예측을 사용한다면 이런 일이 벌어질 수 있다.

그리고 이것은 공정, 정의, 자유의지라는 개념을 무효화시켜버린다.

---

물론 빅데이터는 많은 혜택을 줄 수 있다.

빅데이터를 인간성 말살의 무기로 만드는 것은 빅데이터 예측을 이용하는 우리의 방식이 가진 결함이지

빅데이터 자체의 결함이 아니다.

핵심은 예측된 행동을 저지르기도 전에 그 행동에 대한 책임을 묻는 것은 상관성을 가지고 인과관계를 결정하는 오류라는 점이다.

빅데이터 예측은 상관성이 기초한 것이고 개인의 책임은 인과관계에 바탕을 두니까 말이다.

빅데이터는 현재와 미래의 위험을 이해하고 그에 맞춰 우리의 행동을 조절하는 데 유용한 툴이다.

 

문제는 인간이 세상을 원인과 결과라는 렌즈를 통해 보려고 한다는 점이다.

그래서 빅데이터는 인과적 목적에 남용될 위험을 언제나 안고 있다.

또 빅데이터 예측을 사용하면 책임 할당에 관한 의사 결정을 훨씬 더 효과적으로 할 수 있을 거라는 장밋빛 상상을 하게 만들기도 한다.

 

하지만 이것은 <마이너리티 리포트>에 그려진 사회로 직행하는, 틀림없는 파멸의 길이다.

개인의 도덕적 잣대를 대신하며, 집단의 명령이라는 거칠 것 없는 공격에 개인들이 마구 노출되는 세상 말이다.

이런 식으로 이용된다면 빅데이터는 우리를 말 그대로 확률이라는 감옥에 가둬버릴 것이다.

---

'동의에 의한 사생활 보호'에서 '책임에 의한 사생활 보호'로의 규제 변화에 더해

우리는 특정 상황에서 사생활 보호를 도와줄 기술적 혁신을 그려볼 수 있다.

그런 혁신적 접근법 중에 하나가 '차등적 사생활(differential privacy)'이라는 개념이다.

의도적으로 데이터를 흐리게 만들어서 커다란 데이터 집합을 검색해도 정확한 결과가 나오지 않고

근사치의 결과만 나오게 만드는 것이다.

이렇게 되면 특정한 개별 데이터와 특정인을 연관시키는 일이 어려워진다.

그 대신 비용이 많이 들게 된다.

---

우리는 빅데이터 예측과 그 배후에 있는 알고리즘 및 데이터 집합이 블랙박스가 되어버릴 위험이 있다는 것을 알 수 있다.

책임도, 추적 가능성도, 확신도 없는 블랙박스 말이다.

이런 위험을 막기 위해서는 빅데이터에 대한 모니터링과 투명성이 필요할 것이다.

그리고 또 이를 위해서는 새로운 유형의 전문 기술과 제도가 필요할 것이다.

 

빅데이터에 대해서 새로운 집단의 사람들이 이 역할을 맡아 주어야 할 것이다.

아마 그들은 '알고리즈미스트(algorithmist)'라고 불릴 것이다.

이들은 두 가지 형태일 수 있다.

회사 외부에서 회사를 모니터링하는 독립체들이 있을 수 있고,

회사 내부에서 회사를 모니터링하는 직원이나 부서들도 있을 수 있다.

마치 회사 내부에도 회계사가 있고 외부에도 회계 감사자가 있는 것처럼 말이다.

---

우리가 수집하고 처리할 수 있는 것은 언제나 세상에 존재하는 정보 중 아주 작은 일부에 불과할 것이다. 

이것은 기껏해야 현실의 모사품이다. 

플라톤의 동굴 벽에 비쳤던 그림자처럼 말이다. 

우리는 결코 완벽한 정보를 가질 수 없기에 우리가 내놓는 예측은 처음부터 잘못될 가능성을 내포한다. 

하지만 이것은 예측이 틀렸다는 뜻이 아니며, 다만 언제나 불완전하다는 뜻이다. 

이것 때문에 빅데이터가 내놓는 통찰이 무효가 되지는 않으며 그저 빅데이터의 제자리가 어디인지 알려주는 것뿐이다. 

궁극적인 답을 제시하지 않는 도구로서의 자리, 더 나은 방법과 더 나은 답이 나올 때까지 우리를 도와주는 그냥 충분히 괜찮은 도구로서의 자리 말이다.

그리고 이것은 우리가 빅데이터라는 툴을 사용할 때 충분한 겸손과 충분한 인간성을 함께 발휘해야 햔다는 뜻이기도 하다.  



더보기





Trackback 0 And Comment 0

빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #2

|



이제 본격적으로 빅데이터 가치 창출을 위한 5단계의 프로세스를 살펴보기로 한다. 

이것은 일반적인 빅데이터 분석 과정인 "데이터 획득 - 데이터 준비 - 데이터 분석 - 시각화 - 활용"을 의미한다. 


데이터 획득 (Acquire)

데이터 획득은은 단순히 데이터를 수집하는 것만을 의미하지 않는다. 

먼저 데이터 셋을 명확하게 정의해야 한다. 

어떤 데이터들이 있고, 해당 데이터의 특성이 무엇인지를 명확하게 설정해야 한다. 

그리고 나서 데이터를 검색해보거나 쿼리를 할 수 있어야 한다. 


개인적으로는 이 단계에서 데이터 속성을 파악하는 것이 중요하다고 생각한다. 

데이터에 어떤 항목들이 포함되어 있고, 그것이 무엇을 의미하는 지를 알아야 올바른 가설 또는 문제를 정의할 수 있다. 


데이터 준비 (Prepare)

데이터 준비 단계는 "데이터 탐험"과 "전처리"의 두 가지로 구성된다. 

데이터 탐험은 데이터의 의미를 이해하는 과정이다. 

데이터 시각화를 통해 사전 분석을 해보기도 하면서 데이터 본질을 이해하려고 노력하는 것이다. 

획득 단계에서 파악한 속성들이 실제로 어떤 분포를 보이는지 준비 단계에서 다시 한번 확인하는 것이라 할 수 있다. 


전처리는 수집된 데이터를 분석할 수 있도록 재구성하는 과정이다. 

데이터를 명확하게 정리하고, 통합하고, 그룹화해서 실제 분석에 활용할 수 있는 형태로 구성한다. 

필요할 경우, 이 단계에서 개인정보 비식별 처리를 할 수도 있다. 


데이터 분석(Analyze) 

다양한 데이터 분석 기술들 중에서 앞서 파악한 데이터 특성에 적합한 것을 선택하고 분석 모델을 구성하는 단계이다.  

데이터 모델은 한번에 완성되는 것이 아니다. 

여기에서 정의하고 있는 5단계 프로세스는 계속 반복해서 이루어져야 하며, 

특히 이 단계에서 구성하는 데이터 모델을 발전시켜 나가는 과정이라고 봐야 한다. 


데이터 시각화(Report)

데이터 시각화 단계는 분석 모델의 결과를 서로 논의해보는 단계라 할 수 있다. 

다른 사람들과 공유할 수 있도록 시각화해서 제공하면서 

그 결과에 대한 해석을 해보는 것이다. 

데이터 과학은 주로 분석에 초점이 맞추어져 있지만, 실제로는 이 단계의 논의와 해석이 더 중요한 것 같다. 

통찰(insight)은 바로 이 단계에서 나오는 경우가 많기 때문이다. 


데이터 활용(Act)

활용 단계는 이전 단계에서 찾은 통찰을 실제로 적용해 보는 것이다. 

앞서 강의에서 행동하지 않는 분석은 무의미하다고 이야기했다. 

분석의 결과물을 적용할 수 있어야 진정한 데이터 과학이 완성되었다고 할 수 있다. 





Trackback 0 And Comment 0

가트너 2015 기술 트랜드 분석 - 시민 데이터 과학에서 IoT까지

|



작년과 올해 발표된 가트너의 Hype Cycle을 기반으로 빅데이터, IoT 기술의 동향을 정리해 보려고 한다. 


2014년에는 "빅데이터", "데이터 과학", "사물인터넷" 이 언급되었었는데, 

2015년에는 "빅데이터"가 사라지고 "기계학습", "고급 분석", "시민 데이터 과학", "사물인터넷", "사물인터넷 플랫폼"이 등장했다. 


Gartner's 2014 Hype Cycle


빅데이터는 이제 환상을 점차 걷어내고 있는 추세로 2014년 가트너는 이야기했다. 

그래도 안정화까지는 5~10년 정도 소요 될 것으로 보고 있다. 


데이터 과학은 떠오르고 있는 분야로 설명하고 있고, 

최고 정점에 올라 있는 것으로는 사물인터넷(IoT)를 이야기 하고 있다. 


Gartner's 2015 Hype Cycle


2015년에는 위에서 언급한 대로 빅데이터가 사라졌다. 

대신 기계학습(Machine Learning)과 고급분석(Advanced Analytics With Self-Service Delivery)이 그 자리를 차지하고 있다. 

즉, 빅데이터의 개념보다는 기계학습이나 분석을 통한 활용의 가치에 더 주목하고 있다고 보면 된다. 


또 하나의 특징이 "데이터 과학"이 "시민 데이터 과학"으로 용어를 살짝 바꾼 점이다. 

데이터 과학이 통계학이나 분석학에서 비즈니스 측면으로 이동한다고 해석하면 될 것 같다. 

이제는 기술이 발전하고 있으므로 실제로 비즈니스 전문가들이 파워 유저로서 데이터 과학자로 활동하게 될 것이라고 예측한 셈이다. 


마지막으로 사물인터넷(IoT) 뿐만 아니라 IoT 플랫폼이 추가되었다. 

IoT가 활성화되면서 수집되는 데이터의 양이 많아져서 빅데이터 분석은 더 활성화 될 전망이다. 





Trackback 0 And Comment 0

빅데이터 분석, SI사고방식 버려라

|



"본 글은 2015년 8월 11일 지디넷코리아에 기고한 칼럼입니다."


최근 데이터 분석에 대한 관심이 높아지면서, 공공뿐만 아니라 민간에서도 다양한 프로젝트가 많아지고 있는 추세다.

빅데이터 프로젝트의 핵심은 데이터 규모와 관련된 것뿐만 아니라, 

데이터를 분석해서 가치를 창출하고, 이를 기반으로 의사결정을 해 실제로 비즈니스에 활용하는데 있다. 

데이터의 가치를 찾아내기 위해서는 끊임없이 가설을 세우고 지속적으로 검증하는 절차가 필요하다.

즉, 데이터 분석은 이러한 작업을 반복적으로 수행하면서 결과를 만들어가는 과정에 초점을 맞춰야 한다. 

그러나 실제 빅데이터 프로젝트를 수행하는 형태를 살펴보면, 기존의 SI 프로젝트처럼 진행하는 경우가 많다. 

대규모 SI 프로젝트를 수행하듯 전체 아키텍처를 설계하고, 주어진 일정에 맞춰서 WBS(Work Breakdown Structure)를 구성한다. 

그리고 미리 정해진 일정에 따라 구현 및 테스트를 통해서 프로젝트의 결과물을 만들어내기를 원한다.

이 과정에서 데이터 분석을 위한 가설 수립과 수많은 테스트를 통한 검증은 외면당하기도 한다. 

실제 프로젝트 수행시 데이터 분석에서 "왜 이런 반복적인 프로세스가 필요한가?"를 설득하고 이해하는데 어려움이 있다. 

심지어 데이터 분석 결과 원하지 않는 결과가 나올 수도 있다고 하면 고객은 당황하기도 한다.


다양한 측면에서 데이터를 분석해 보면 처음 설정한 가설이 틀릴 수도 있다. 

이런 결과를 확인한 것도 분명히 성과임에도 고객은 실패로 받아들이는 것이다.

성공적으로 분석 결과가 나와서 새로운 서비스에 적용하면 끝이라는 생각도 위험하다. 

베이즈 정리에서 축적된 데이터를 기반으로 확률을 높여가면서 보다 정확한 예측을 하는 것처럼, 

분석 결과로 제공하는 서비스의 데이터를 다시 입력으로 보고 한번 더 분석, 검증하는 과정을 거치면서 지속적으로 정확도를 높여나가야 한다.

결론적으로 올바른 빅데이터 프로젝트를 수행하기 위해서는 가설 수립, 분석 모델 설정, 설계, 검증을 반복적이면서 체계적으로 관리할 수 있어야 한다. 

그래서 애자일 방법론이 폭포수 모델 기반의 기존 방법론보다 빅데이터 프로젝트에 더 적합하다고 볼 수 있다. 

전체 프로젝트의 일정을 짧게 나누고 계획, 분석, 검증 작업을 반복적으로 수행하면서 최선의 결과를 찾아나가는 방식이 빅데이터 분석에 어울리는 것이다.

또 빅데이터 프로젝트는 기존의 SI를 담당하는 IT 부서나 개발자 위주로 진행하면 안 된다.

첫째, 실제 빅데이터 프로젝트에는 다양한 이해 관계자들이 존재한다. 

비즈니스 전문가, 데이터 분석가, 통계 전문가, 시각화 전문가, 개발자 등이 모두 참여하는 복합적인 프로젝트이다.

각각의 이해 관계자들이 끊임없이 의사 소통하면서 기존의 발견하지 못한 무언가를 찾아내는 것이 필요하다. 

보다 효과적인 의사 소통을 위해서 난해한 개발자들의 용어가 아니라 공통의 언어로 소통할 필요가 있다. 

그러므로 개발자가 아닌 비즈니스 전문가나 데이터 분석가 중심으로 프로젝트를 수행하는 것이 바람직하다고 본다.

둘째, 일반적으로 개발자는 결과물을 만들어 내기 위한 기술이나 도구에 집중하는 경향이 높다. 

물론 빅데이터 프로젝트를 수행하는데 있어 어떤 도구를 활용하고, 어떤 기술을 사용하는지는 잘 결정해야 할 필요가 있다. 

그러나 앞서 언급한 대로 실제 빅데이터 프로젝트는 결과물을 기반으로 새로운 서비스를 창출하거나 보다 효과적인 의사결정에 활용하는 것이 더욱 중요하다. 

그러므로 기술이나 도구보다 어떻게 결과물을 검증하고 분석 모델을 보완해 나갈 것인지에 대해 보다 관심을 가져야 한다.

성공적인 빅데이터 프로젝트를 위해 관리자는 개발이 아닌 데이터 분석에 초점을 맞출 필요가 있다. 

실제 현장에선 개발에 초점이 맞춰진 경우도 종종 있는데, 지켜보는 입장에서 아쉬울 따름이다.




Trackback 0 And Comment 0

빅데이터 분석 무료 교육 안내~

|



2015년 국가인적자원개발컨소시엄 지원사업으로 빅데이터 분석 관련 무료 교육이 진행될 예정입니다. 

7월 8일(수) ~ 7월 10일(금) 까지 DMC 첨단산업센터에서 진행합니다. 


1일차에는 빅데이터 분석의 필요성과 개념, 비즈니스에 적용 사례 등을 중심으로 살펴볼 계획이고

2일차에는 빅데이터 분석을 위한 관련 기술들을 다뤄볼 생각입니다. 

그리고 마지막 3일차에는 실제 빅데이터 분석을 어떻게 진행하는지, 어떤 방법이 더 나은 것인지 몇가지 주제를 정해서 함께 논의하면서 진행해 보려고 합니다. 


정식 과정명은 "오픈소스를 활용한 빅데이터 분석 (Data Science & Analytics)"이고, 제가 강의를 진행합니다. 

단순히 Hadoop이나 R 사용법만 교육하는 기존의 빅데이터 강의에서 벗어나 

수강하시는 분들이 실질적인 빅데이터 분석을 할 수 있도록 하는데 초점을 맞추고 진행하려고 생각하고 있습니다. 


재직자 대상 무료 교육으로 다음 신청 양식을 작성 후, 이메일(june@kossa.kr)로 송부하면 된다고 합니다. 

1. 국가인적자원개발 컨소시엄 협약서 직인포함_2015031

2. 훈련과정_수강신청서_교육생_2015.docx


수강 신청과 관련하여 문의사항은 한국공개소프트웨어협회 김학준 팀장(070-7730-7820, june@kossa.kr)로 하시기 바랍니다. 


관심 있는 분들의 참여 바랍니다. 





Trackback 0 And Comment 0

고슴도치와 여우~ 누가 빅데이터 분석에 적합할까?

|



러시아의 사상가인 이사야 벌린은 사람을 "고슴도치"와 "여우"의 두 가지 유형으로 분류했다. 

여우는 여러 가지 목적을 동시에 추구하면서 세상의 복잡한 면면을 두루 다룬다. 

그래서 오지랖 넓게 여기 저기 기웃거리는 사람이라 할 수 있다. 


반면, 고슴도치는 복잡한 세계를 단 하나의 체계적인 개념이나 기본 원리로 단순화 시킨다. 

그래서 하나의 원리를 향해 외곬으로 나아가는 사람이라 할 수 있다. 


원래 고슴도치와 여우는 라틴어 격언에서 시작한다. 

여우는 많은 것을 알지만, 고슴도치는 큰 것 하나를 안다. (Multa novit vulpes, verum echinus unum magnum)


이사야 벌린은 톨스토이가 고슴도치 타입인지 여우 타입인지를 "전쟁과 평화"를 통해 살펴보았다고 한다. 

그 결과 톨스토이는 고슴도치 타입으로 살기 원했지만 실제로는 여우 타입이었다고 한다. 



역사적 인물로 단테, 플라톤, 파스칼, 헤겔, 도스토예프스키, 니체는 고슴도치 타입, 

헤로도토스, 아리스토텔레스, 몽테뉴, 괴테, 발자크 등은 여우 타입이라고 한다. 


과연 고슴도치와 여우 중 빅데이터 분석에는 누가 적합할까? 


"좋은 기업을 넘어 위대한 기업으로"를 쓴 짐 콜린스는 여우가 아닌 고슴도치가 성공할 수 있다고 강조한다. 

고슴도치는 세상이 아무리 복잡해도 단순한 하나의 고슴도치 컨셉으로 축소시키고, 

이 고슴도치 컨셉에 부합하지 않는 것에는 전혀 관심이 없기 때문이라고 한다. 

고슴도치 컨셉을 갖는 순간 명쾌함과 단순성을 확보할 수 있다고 한다. 

즉, 사업적인 성공을 하려면 고슴도치와 같은 단순함에 기반한 하나의 가치를 가져야 할 것이다. 


반면 필립 테틀록은 전문가들의 분석에 따른 예측이 얼마나 잘 맞는지 20년간 연구를 했다.

이 과정에서 고슴도치와 여우의 양 극단으로 전문가를 분류한 결과,

여우가 고슴도치보다 예측을 잘한다는 사실을 발견했다고 한다. 


또한 네이트 실버는 "신호와 소음"에서 고슴도치에게 너무 많은 정보가 주어지는 것은 독이 된다고 했다. 

많은 정보를 가진 고슴도치들이 온갖 이야기를 만들어 내고, 이를 비판적으로 생각하는 능력을 잃어버릴 수 있기 때문이라고 한다. 


고슴도치는 큰 것 하나, 하나의 원리만을 바라보기 때문에 다양한 정보 중 자신에게 유리한 것만 취할 수 있기 때문인 듯 하다. 

반면에 여우는 여기 저기 다 고려하기 때문에 분석에 있어서 더 유리한 건 아닐까 한다. 


결론적으로 여우 타입이 빅데이터 분석에 적합하다고 볼 수 있다. 

과연 나는 여우 타입일까? 고슴도치 타입일까? 





Trackback 0 And Comment 0

포스트 스마트폰, 경계의 붕괴

|



미니 서평

최근 이슈가 되는 사물 인터넷 (IoT - Internet of Things)을 살펴보기 위해 본 책이다. 

저자는 스마트폰, 빅데이터, 사물인터넷을 포함해 최신 ICT 비즈니스 상황을 일목요연하게 정리하고 있다. 

ICT 분야의 전반적인 현재 상황과 앞으로의 발전 방향을 이해하는데 분명 도움이 된다.  


다만, 전체적인 관점에서 다루다 보니 세부적인 내용이 약간 아쉽다.

예를 들어, 가장 관심을 가졌던 사물인터넷에 대해서 한 챕터에 간략하게 설명하고 있을 뿐이다. 


그래도 "하드웨어 에코 시스템을 구축하고 있는 스패로"나 "Carrier IQ의 스마트폰 정보 수집" 등은 관심을 끌기에 충분했다.  

ICT의 최신 흐름을 파악하고 싶다면 한번쯤 읽어보기를 추천한다.


밑줄 긋기

정보의 가치는 소유하느냐로 결정되는 게 아니라 필요로하는 정보를 빠르게 찾아볼 수 있느냐로 결정된다. 


결국 고객 접점을 차지하는 것이 헤게모니를 주도하는 것이기 때문이다. 

앞으로 고객과의 지속적인 접점을 만들기 위한 통신사, 제조사, 서비스사, 방송사들의 경쟁이 더욱 치열하게 전개될 것이다. 

제품을 한번 파는 것보다 지속적으로 고객과 연결되는 것이 더 중요한 가치를 만들어내기 때문이다. 


웹의 서비스들은 PC 중심, 콘텐츠 중심, 커뮤니티 중심으로 사람을 연결하는 방식이었다. 

그에 반해 모바일 시대의 소셜 네트워크 서비스는 메시지나 콘텐츠 등의 서비스보다 사람 간 네트워크를 더 중시하고 있다. 


사물 통신의 가장 중요한 기술은 다음의 3가지로 압축된다. 

1. 센싱

2. 통신 인프라

3. 서비스 인터페이스


제조 2.0 시대의 중요한 관건은 사물을 인터넷에 연결해 어떤 데이터를 어디에(클라우드) 어떻게 기록하고, 

이를 기반으로 어떠한 형태의 서비스를 제공하느냐에 대한 답을 찾는 것이다. 

더 나아가 이러한 서비스를 기반으로 어떤 비즈니스 모델을 창출해내느냐도 중요하다. 

이처럼 제조 2.0 시대의 디바이스들은 그 기기를 판매할 때보다 사용자들이 사용할 때 부가가치를 창출하는 비즈니스 모델을 핵심으로 할 것이다. 


사물통신의 시대에는 PC, 스마트폰, 태블릿이 그랬던 것처럼 사물의 SDK, API가 오픈되어 다양한 용도로 확장되어 사용할 수 있게 될 것이다. 

SNS 시대에는 친구 관계에 대한 정보를 담는 Social Graph와 계정에 쉽게 접근할 수 있게 해주는 인증 표준인 OAuth가 중요한 것처럼, 

MNS 시대에는 사용자가 사용하는 디바이스들에 대한 정보와 각 디바이스에 연결할 때 사용하는 계정과 인증이 중요한 자원이 될 것이다. 


친구와 지인들의 SNS 일상을 통해 구매욕을 자극받아 충동적으로 즉시 상품을 구매하도록 만드는 것이 모바일 소셜 쇼핑의 특징이다. 

또한 모바일 쇼핑은 기존의 구매 프로세스를 2단계로 줄여줌으로써 좀 더 즉각적으로 상품을 구매할 수 있도록 한다. 

즉, 소비자가 구매의 필요성을 느끼기도 전에 빅데이터를 기반으로 사용자에게 소비할 제품을 추천하고, 

사용자는 제품을 선택만 하면 지불과 구입이 자동으로 이루어지는 원스톱 쇼핑이 모바일 전자상거래의 미래이다. 


AS-IS: Needs - Search - Decision - Pay - Buy

TO-BE: Suggest - Choice


웹의 시대에는 고객의 프로필 정보만 얻을 수 있었다면 모바일 시대에는 고객의 행동 데이터를 얻을 수 있다. 

더 나아가 IoT의 시대에는 고객의 행동을 넘어 고객의 컨텍스트를 얻을 수 있다. 

즉, 고객이 어떤 상태이고 무엇에 관심 있는지를 넘어, 어떤 니즈를 가지고 있으며 왜 그것을 좋아하는지를 알 수 있게 되는 시대인 것이다. 


양질의 콘텐츠, 전 세계를 아우르는 동영상 플랫폼, 그리고 이러한 정보를 유통하는 SNS. 

이 3가지가 '강남 스타일'의 글로벌화를 만들었다. 

미래의 방송에서 중요한 것은 이 3가지이다. (콘텐츠, 디지털 동영상 플랫폼, 유통 채널)


이제 이 같은 앱들에서 연결할 수 없는 서비스는 더 이상 주목받기 어렵게 되었다. 

웹에서 검색되지 않으면 주목 받을 수 없는 것처럼 이제 외부의 앱들이 접근할 수 있도록 적극적으로 서버와 API를 개방하지 않으면 주목받을 수 없게 되는 것이다. 


모든 경제나 시장은 생산, 유통, 소비의 3가지로 구분해서 관찰할 때 큰 인사이트를 얻을 수 있다. 

시장의 활성화는 이 3가지가 유기적으로 조화롭게 동반 성장하며 이루어진다. 

이렇게 단계별로 성숙되어 갈 때 유통을 장악하는 것이 가장 최고의 비즈니스 모델이다. 

성공하긴 어렵지만 성공할 경우 영업이익률이 높고 오래가는 비즈니스이기 때문이다. 






Trackback 0 And Comment 1

단기간에 빅데이터 인력 양성은 허구다

|



"본 글은 2014년 3월 12일 지디넷코리아에 기고한 칼럼입니다."


빅데이터에 관심이 있다면 데이터 과학자(Data Scientist)에 대해 들어 봤을 것이다.  

성공적인 빅데이터 분석을 위해서 데이터 과학자들이 많이 필요하다고 한다.

 

데이터 과학자는 과연 어떤 역할을 할까? 

2012년 하바드 비즈니스 스쿨에서 발표한 '데이터 과학자: 21세기 가장 멋진 직업'(Data Scientist: The Sexiest Job of the 21st Century)이란 자료를 보면 살펴보면 이에 대한 해답이 나와 있다.

 

데이터 과학자는 복잡하고 수많은 데이터를 구조화해서 분석이 가능하게 만든다. 

필요한 데이터를 찾고 서로 연결하기도 하면서 데이터에서 인사이트를 찾아내는 것이다. 

 

그리고 새롭게 찾아낸 인사이트를 비즈니스에 적용해 회사가 나아갈 방향을 제시하기도 한다. 

의사결정권자의 이해를 돕기 위해 시각화 기술을 활용하고 패턴을 제공하기도 한다. 

 

이런 데이터 과학자가 되기 위해 필요한 역량은 무엇일까? 

 

기본적으로 프로그래밍 기술, 통계, 그리고 데이터 분석에 대한 전문적 지식을 가지고 있어야 한다. 

과학자로서 호기심을 가지고 새로운 가설을 만들고 검증할 수 있어야 한다. 

이를 위해 스토리텔링 능력과 패턴 및 알고리즘 구성, 시각화 기술도 필요하다. 

분석 대상이 되는 비즈니스에 대한 전문적 지식도 당연히 필요할 것이다. 

 

이렇게 보면 데이터 과학자는 빅데이터 분석에 있어 슈퍼맨과 같은 존재로 다가온다. 

이런 슈퍼맨을 정부 등 여기저기에서 대거 양성하겠다고 한다.

 

하지만 짧은 기간 내에 데이터 과학자를 키우는건 쉽지 않다. 

최소한의 프로그래밍, 수학, 통계학, 비즈니스에 대해 가르쳐야 하기 때문이다. 

수학과 통계학만 제대로 공부하는데 10년이 걸린다고 하는 이들도 있다.

 

프로그래밍 기술과 비즈니스 교육, 거기에 스토리텔링, 시각화, 분석 기술까지 가르쳐야 한다는걸 감안하면 쓸만한 데이터과학자 양성에는 정말이지 오랜 시간이 필요할 것이다.

 

하지만 빅데이터 분석이 십여년 후에 어떻게 변화할지는 아무도 모른다. 

기술 발달로 데이터 과학자 없이 누구나 쉽게 분석을 할 수 있는 상황이 될 수도 있을 것이다. 

다시 말해 데이터 과학자가 양성될 때까지 시장은 기다려 주지 않는다는 것이다. 

 

그런만큼, 다음과 같이 역할별로 세분화해서 빅데이터 인력 양성을 하는 것이 바람직하다는게 필자의 생각이다.

 

첫째, 빅데이터 개발을 수행할 수 있는 데이터 개발자 인력을 양성하는 것이다. 

실제로 국내에도 빅데이터와 관련된 개발을 할 수 있는 엔지니어는 많이 있다. 

기존 데이터를 처리하던 데이터웨어하우스(DW)나 비즈니스 인텔리전스(BI) 개발자들이 자연스럽게 데이터 개발자 영역으로 이동할 수 있다.  

데이터 마이닝이나 텍스트 데이터를 처리했던 개발자들도 있다. 

 

빅데이터 분석과 관련하여 등장한 새로운 기술 분야별로 개발자를 양성할 수도 있다. 

하둡(Hadoop), NoSQL, R, CEP(Complex Event Processing) 등 각 개발 언어나 플랫폼에 따라 개발자들을 늘려 나가면 될 것이다. 

 

프로젝트는 팀 단위로 이뤄질 것이므로 굳이 한 명의 개발자가 모든 툴을 다 다룰 필요는 없다. 

기존 자바(Java) 개발자들이 모바일이 대세가 되면서 안드로이드 개발자로 빠르게 이동한 것처럼 

빅데이터 분석이 더욱 활성화되면 자연스럽게 기존 개발자들이 데이터 개발자로 넘어 올 것이다. 

 

둘째, 데이터 개발자가 확보 되면 이제 빅데이터 분석이 가능한 분석 전문가 양성이 필요하다. 

데이터 개발자가 데이터를 가지고 프로그램을 직접 만드는 인력이라고 한다면, 

분석 전문가는 여러 가지 데이터들을 활용해서 각종 비즈니스 질문에 해답을 제시할 수 있는 이들이다.

 

데이터 개발자는 사용하는 툴이나 언어, 플랫폼에 따라 다양한 분야로 나눌 수 있지만, 

분석 전문가는 다음과 같이 네가지 분야별로 구분해서 양성하면 좋을 것 같다. 

 

1. 비즈니스 분석 전문가 

빅데이터 분석을 하기 위해서는 비즈니스에 대한 이해가 반드시 필요하다.  

비즈니스를 이해하는 인력은 별도로 양성하기보다 기존의 인력을 충분히 활용할 수 있을 것이다.

 

새로운 사업 계획을 세우고 목표 도달 여부를 평가하기 위해서 엑셀과 같은 툴을 활용하는 인력들이 일반적으로 회사 내부에 있을 것이다. 

임원이나 의사결정권자의 비즈니스 관련 질문에 적절한 해답을 제공하던 인력도 있을 것이다. 

 

이런 역할을 수행하던 영업, 마케팅, 회계 담당 인력들이 바로 비즈니스 분석 전문가 후보가 될 수 있다. 

실제 비즈니스 분석 전문가는 외부에서 찾기 보다 내부에 있는 호기심 많은 인재를 찾아 양성하는 것이 바람직하다. 

 

2. 데이터 분석 전문가 

데이터 분석 전문가는 비즈니스와 IT의 중간 영역이라 할 수 있다. 

데이터 개발자에게 프로그래밍에 대한 방향을 제시하고, 비즈니스 분석 전문가와 함께 분석으로 도출된 인사이트에 대해 협의하기도 한다. 

 

데이터 분석 전문가가 하는 주요 작업은 데이터에 접근해서 이를 문서화하고 정리하는 것이다. 

이를 통해 현업 담당자들이 필요한 정보를 빨리 찾고 활용할 수 있도록 한다. 

데이터 분석 전문가는 데이터 포맷, 저장, 삭제, 보안 등을 담당한다고 보면 된다. 

최근 이슈가 되고 있는 개인정보보호 관련 정책도 데이터 분석 전문가를 통해서 구성할 수 있다. 

 

3. 통계 전문가 

통계 전문가는 수학과 통계학을 이해하고 데이터 마이닝 활용 방법을 알고 있는 인력이다. 

프로그래밍 정도는 아니지만 SQL이나 R을 사용해 데이터를 다룰 수 있어야 한다. 

 

통계 전문가에게 가장 중요한 작업은 바로 모델링이다. 

데이터 모델링을 통해서 비즈니스 인사이트를 도출하고, 데이터의 연관 관계와 같은 분석을 위한 알고리즘을 제시해야 한다. 

 

빅데이터 분석에서 언급하는 수많은 데이터에서 놓칠 수 있는 정보를 찾아주는 것이 바로 통계 전문가라 할 수 있다. 

이들에겐 데이터 분석 전문가가 모아둔 데이터에 대한 모델링을 할 수 있는 수학적, 통계학적 능력이 필요하다.

 

4. 데이터 과학자 

데이터 과학자는 오케스트라의 지휘자라고도 한다. 

앞서 설명한 데이터 개발자, 비즈니스 분석 전문가, 통계 전문가 역할을 모두 할 수 있는 것이 바로 데이터 과학자이다. 

 

실제 빅데이터 분석 프로젝트 팀을 이런 데이터 과학자들로만 구성할 필요는 없다. 

한 명의 데이터 과학자 지휘 아래 개발자들, 비즈니스 분석 전문가, 데이터 분석 전문가, 통계 전문가가 한 팀을 이루면 된다. 

데이터 과학자가 한 명도 없다면 다른 개발자나 분석 전문가들 중에서 가장 창의력이 뛰어난 인재를 중심으로 팀을 구성하면 된다. 

 

빅데이터 분석의 중요성이 높아질수록 데이터 과학자들이 많이 필요할 것이다. 

또 데이터 과학자를 얼마나 보유하고 있는지가 향후 빅데이터 분석의 경쟁력이 될 것은 분명하다. 

 

그러나 데이터 과학자를 바로 양성하려는 욕심을 부리지는 말자. 

데이터 개발자, 비즈니스 분석 전문가, 데이터 분석 전문가, 통계 전문가를 단계적으로 양성해 나가는 것이 더욱 필요하다.  

 

이렇게 빅데이터 분석 인력을 세분화해 양성하고 프로젝트 팀을 구성하면 빅데이터 분석을 좀 더 빨리 수행할 수 있을 것이다. 

그리고 각 담당자들이 상호 보완적으로 협력한다면, 시간이 가면서 진정한 데이터 과학자로 성장해 나가지 않을까 싶다.





Trackback 0 And Comment 0

실시간 처리를 위한 분산 메시징 시스템 카프카(Kafka)

|



카프카(Kafka)는 대용량 실시간 처리를 위해 사용하는 메시징 시스템으로 Pub-Sub 구조로 되어 있다. 

LinkedIn, Twitter, Netflix, Tumblr, Foursquare 등 대용량을 다루는 업체들이 주로 카프카를 사용하고 있다. 

물론 카프라 단독으로 실시간 처리를 구성하지 않고, 스톰(Storm) / 하둡(Hadoop) / HBase 등과 연동해서 활용하는 것이다. 


아직까지 국내에서 카프카를 실제 서비스에 많이 활용하고 있지는 않고

오히려 레디스(Redis)와 같은 메모리(In-Memory) 기반의 메시지 큐나 멤캐쉬(memcached)를 더 많이 사용하는 것 같다.  

하지만 전세계 40여개가 넘는 대용량을 다루는 업체들이 어떻게 카프카(Kafka)를 사용하고 있는지 한번 정리해 보기로 한다. 


카프카(Kafka) 개요

비즈니스 소셜네트워크로 유명한 링크드인(LinkedIn)은 메시징 및 로깅 처리를 위해 ActiveMQ와 Splunk를 사용하고 있었다. 

하지만 링크드인이 점차 글로벌 서비스로 성장하면서 데이터 양이 늘어남에 따라 기존의 기술들은 확장성이 떨어졌다. 

그래서 플럼(Flume)이나 스크라이브(Scribe)와 같은 기술도 검토했지만 결국 확성이 높고 신뢰할 수 있는 시스템을 만들기로 결정했다. 


이렇게 시작된 카프카는 링크드인에서 빠른 처리 속도를 보장하는 분산 메시지 큐로서의 역할을 하게 된다.  

이후 아파치 탑 프로젝트(Apache Top Project)로 등록되면서 버전 0.8임에도 불구하고 점차 사용하는 회사를 늘어나게 된다. 


카프카(Kafka) 구성요소

카프카의 가장 큰 특징은 다른 메시징 시스템과 달리 파일시스템을 이용한다는 점이다. 

메모리에 저장하는 구조가 아니기 때문에 데이터 자체의 휘발성이 없으며 효율적으로 데이터를 보관할 수 있다. 


또한 시스템 자체가 프로듀서(Producer) / 컨슈머(Consumer) / 브로커(Broker)로 매우 간단하게 구성되어 있다. 

프로듀서는 데이터를 카프카로 전달하는 역할을 하고

컨슈머는 카프카에 저장된 데이터를 가져오는 역할을 한다. 



위 그림에서와 같이 여러개의 프로듀서와 컨슈머를 구성할 수 있다. 

이것은 데이터의 수집을 여러 곳에서 할 수 있고 

해당 데이터를 처리하는 것도 활용 범위에 따라 여러개 만들어서 처리할 수 있다는 것이다. 


프로듀서와 컨슈머에 대한 API를 제공함으로써 어떤 서비스와도 잘 결합되게 만들어져 있다는 점도 특징이다. 

특히 빅데이터 분석에 많이 사용하는 하둡(Hadoop/HBase)과 해당 컨슈머를 구성해서 바로 연동할 수 있다. 


카프카에서는 토픽(Topic)을 설정해서 데이터를 전송하고, 각 토픽을 기준으로 파티션(Partition)을 구성해 저장한다. 



각 파티션에 들어온 순서대로 저장하고 순차적으로 컨슈머에게 전달해 처리하게 된다. 

물론 파트션에 저장하는 정보의 양도 설정값으로 조정할 수 있다. 


파티션 구조를 효과적으로 사용하고 신뢰성있는 시스템을 구성하기 위해서 카프카 클러스터(Kafka Cluster)를 구성해야 한다. 

카프카 클러스터를 구성하는 장점에 대해 링크드인의 엔지니어인 준 라오(Jun Rao)는 다음과 같이 이야기한다. 


The benefits of Kafka replication

- A producer can continue to publish messages during failure and it can choose between latency and durability, depending on the application

- A consumer continues to receive the correct messages in real time, even when there is failure


마지막으로 카프카 클러스터를 관리하기 위해서 주키퍼(Zookeeper)를 사용해서 각 노드를 모니터링한다.

카프카를 설치하면 주키퍼도 함께 설치되는 것을 확인할 수 있다. 


카프카 서버 구성

실제 카프카를 활용하려고 할 때 클러스터를 구성하는 방법에 대해서 자료가 부족한 것이 사실이다. 

아래 카프카 클러스터를 통해 개념만 한번 정리해 보자. 



위 그림은 카프카 클러스터로 서버 3대를 사용하고 있으며, 주키퍼로 모니터링 하고 있다. 

"zerg.hydra"라는 토픽으로 데이터를 전송하고 있고 파티션은 2개를 사용하고 있다. 


브로커1(broker1)을 보면 P0/R1이 진하게 표시된 것을 알 수 있는데, 이것은 브로커1이 파티션0의 리더(leader)임을 나타내는 것이다. 

정상적인 경우라면 파티션0의 데이터를 읽기 위해서 리더인 브로커1의 데이터를 활용하게 된다. 

만약 브로커1에 문제가 발생한다면, 파티션0가 복제(Replication) 되어 있는 브로커2(broker2)의 데이터를 사용하게 될 것이다. 

이러한 브로커2와 같이 복제 되어 있는 서버를 팔로워(follower)라고 한다. 


그렇다면 이러한 복제(Replication)을 어떻게 구성해야 할까?

구글의 글로벌 분산데이터베이스인 스패너(Spanner)나 아파치의 주키퍼(Zookeeper)는 "Quorum Based" 방식으로 복제(Replication)을 구성하고 있다. 

이 방식은 리더가 모든 팔로워(복제 대상 서버)에 데이터가 전송될 때까지 기다리지 않고,

대부분의 팔로워가 데이터를 수신하면 바로 리더에서 데이터를 처리하도록 한 것이다. 


만약 데이터 처리 중 리더에서 오류가 발생하면, 복제가 완료된 팔로워들 중 하나를 새로운 리더로 추천하는 것이다. 

이렇게 함으로써 모든 팔로워에 복제가 완료될때까지 기다리는 것보다 복제 대기시간을 줄일 수 있게 된다. 


카프카를 제대로 활용하고자 한다면, 데이터 양과 위와 같은 사항들을 잘 고려해서 구성해야 할 것이다. 






Trackback 0 And Comment 0
prev | 1 | 2 | 3 | next