티스토리 뷰

반응형

미니 서평


빅데이터의 높은 관심

최근 TV 프로그램을 보니 20회 특집에서 빅데이터 분석을 통한 해당 프로그램의 현재 상태를 진단하는 것을 봤는데요. 

빅데이터가 이제는 전문가들만이 사용하는 것이 아니라, 누구나 이용할 수 있는 단계로 점차 나아가고 있다는 생각이 들었습니다. 

실제로 빅데이터 관련 서적들이 봇물처럼 쏟아져 나오고 있으니 그만큼 관심이 높다는 것이겠죠. 


제가 이미 읽었던 기술 부분이 아닌 빅데이터 개념과 관련된 책들도 다음과 같네요.  

2013/02/22 - [리뷰/도서] - 빅데이터가 만드는 비즈니스 미래지도 - 미래 경제를 움직이는 거대한 데이터 혁명

2012/12/24 - [리뷰/도서] - 빅데이터 경영을 바꾸다 - 빅데이터 시대의 새로운 기회를 찾아서

2012/11/26 - [리뷰/도서] - 빅데이터 비즈니스 - 끊임없이 쏟아지는 거대한 데이터를 어떻게 새로운 가치로 만들어낼 것인가?


점분석에서 선분석으로.. 그리고 면분석, 입체분석까지

시로타 마코토가 지은 이 책에서는 기존의 트랜잭션 데이터로 얻어지는 정보를 '점분석'이라고 이야기 하고 있고, 

빅데이터를 통한 상호작용을 분석한 정보를 '선분석'이라고 하고 있습니다. 

즉, 점분석에서 선분석으로 나아가고 있다는 것인데요. 

선분석 이후에 면분석/입체분석 등으로 발전해 나갈 수 있는 측면에서 보면, 이제 빅데이터가 시작이라는 점을 이야기 하고 있는 것 같아 신선했습니다. 


빅데이터 기술

기술적인 부분에서는 먼저 제 블로그에서도 많이 다룬 하둡(Hadoop)이나 R과 같은 오픈소스를 언급하고 있습니다. 

특히 주목할 부분은 이제 빅데이터도 실시간 처리와 관련된 요구사항이 증가하고 있다는 것입니다. 

제가 빅데이터 분석 기술에 대한 정리에서도 언급한 적이 있는 CEP(Complex Event Processing)와 같은 스트림 데이터를 실시간으로 처리하는 기술들도 나와 있습니다. 

CEP와 관련해서 Esper라고 하는 오픈소스도 있으니 관심 있는 분들은 살펴보시기 바랍니다. 

하지만 반드시 실시간이 좋은 것은 아니며, 분석하고자 하는 대상에 따라 적절한 기술들을 활용해야 한다는 점은 분명히 하고 싶네요. 


열린정부와 정부 3.0

열린 정부(Open Government)에서는 현재 서울시가 추진하고 있는 열린 정부, 열린 데이터에 대한 몇가지 생각이 들었습니다. 

팀 버너스리가 제창한 LOD(Linked Open Data)에 따라 수많은 데이터들을 잘 공개하고 있는데, 

저는 그 이후가 더욱 중요하다고 생각합니다. 

공개된 데이터를 어떻게 얼마나 잘 사용하고 있는지를 추적하고, 

데이터들의 상관 관계를 분석해서 앞으로를 예측할 수도 있어야 하고,

이를 정부의 정책에 반영해서 적용할 수 있는 실행까지 이루어져야 한다고 봅니다. 

단지 데이터만 공개했다고 해서 바로 열린 정부가 될 수 있는 것은 아닐테니까요.. 


데이터 과학자에 대하여

마지막으로 현재 빅데이터와 관련해서 가장 중요한 "Data Scientist(데이터 과학자)"에 대한 부분인데요. 

제가 아는 분이 고등학생 조카가 소프트웨어공학을 전공하고 싶어하는데 어떠냐고 저에게 묻기에, 

수학과나 통계학과를 추천해줬습니다. 

할 베리언의 이야기처럼 향후 10년 이상은 통계 전문가가 매력적인 직업이 될 것이니까요.. 


일본 저자가 작성한 책이어서 일본 내 사례들도 많이 포함되어 있는 것이 다른 책과 조금 달랐습니다만, 

일반적으로 빅데이터와 관련된 책들의 구성이 큰 차이가 없는 듯 합니다. 

처음 빅데이터를 접하는 분들도 읽어보기에는 부담이 없을 것이라는 생각이 드네요. 



밑줄 긋기

비구조화 데이터를 중심으로 빅데이터를 분석하려는 시도가 많아진 이유는 

단순히 '물건이 팔렸다'거나 '고객 한 사람이 계약을 해지했다' 같은 트랜잭션 데이터로부터 얻어지는 '점(트랜잭션 데이터)' 정보를 집계하고 끝내는 게 아니라 

고객과의 인터랙션(상호작용, 교류) 데이터라는 '선(인터렉션 데이터)' 정보로부터 '왜 그 상품이 팔렸는지', '왜 고객은 떠나갔는지'와 같은 상황 정보를 찾으려는 움직임이 드러난 것이기도 하다. 


일반 기업에서는 소프트웨어의 높은 성능은 물론이고 신뢰성, 안정성, 높은 보안성을 요구하기 때문에 

오픈소스인 하둡으로 이런 특성을 담보하면서 클러스터 환경을 구축하기는 상당히 벽이 높다고 할 수 있다. 

그래서 등장한 것이 '하둡 배포판'이다. 

배포판이란 오픈소스 리눅스에서도 그랬던 것처럼 설치 패키지를 제공하거나 사전에 검증된 주변 소프트웨어를 함께 넣어, 

오픈소스 커뮤니티에서 개발한 소프트웨어를 더 사용하기 쉽게 하고자 패키지로 제공하는 것이다. 


(경쟁사도) 결국은 최고 상품, 최고 서비스로는 따라붙는다. 

하지만 데이터를 활용하는 영역까지 최고에 도달할 수 있다면, 다른 회사가 따라올 수 없지 않을까?

우리는 상품, 서비스, 정보 활용 세 단계에서 항상 경쟁사보다 계속해서 앞서 나갈 것을 목표로 한다. 


빅데이터 활용에는 '과거/현재의 상황 파악' -> '패턴 발견' -> '예측' -> '최적화'의 네 단계가 있다. 

단, 서비스에 따라서는 최종 목표가 반드시 '최적화'일 필요는 없다. 


빅데이터 활용의 진가는 '데이터양', '다양성', '발생 빈도'라는 특성이 있는 데이터를 비즈니스에 적절히 도입해 가는 것이다. 

특히 예전에 활용하지 않았던 데이터나 얻을 수조차 없었던 새로운 데이터를 활용함에서 커다란 비즈니스 기회가 생긴다. 


빅데이터에 관련된 비즈니스 기회라고 하면 대용량 저장장치, 데이터 웨어하우스, 하둡, 비즈니스 인텔리전스 도구 등의 하드웨어나 소프트웨어 판매 혹은 데이터 분석 위탁 등 아우소싱 비즈니스가 떠오를 것이다. 

하지만 '데이터 어그리게이터'라는 비즈니스에도 큰 기회가 있다는 점을 의식할 필요가 있다. 


"Beautiful Data"에서 페이스북의 데이터 과학자에 대해 다음처럼 설명했다.

비즈니스 분석가, 통계학자, 엔지니어, 리서치 사이언티스트와 같은 종래의 직함은 전혀 의미가 없었다. 

우리팀에서 해야 하는 일은 정말 다양하다. 

다단계의 처리 연결 통로를 파이썬으로 만들고, 가설 검증을 설계하고, 통계 소프트웨어 R을 이용해 데이터 샘플을 회귀 분석하고, 

하둡으로 빅데이터를 다루는 제품이나 서비스의 알고리즘을 설계해 구현하고, 분석 결과를 명료하고 간결한 방법으로 사내의 다른 사람과 이야기해야 한다. 

이처럼 수많은 일을 해내는 데 필요한 사람을 표현하고자 우리는 '데이터 과학자'라는 직함을 만들어냈다. 


구글의 수석 경제학자 할 베리언은 다음처럼 말했다. 

앞으로 10년은 '통계 전문가'가 매력적인 직업일 것이라고 계속 말했었다. 

사람들은 내가 농담을 한다고 생각할지도 모른다. 

하지만 컴퓨터 엔지니어가 1990년대의 매력적인 직업이 될 거라고 대체 누가 예상했었나? 

데이터를 추출하는 능력, 데이터를 이해하는 능력, 데이터를 남에게 전달하는 능력은 앞으로 10년간 아주 중요한 기술이 될 것이다. 

전문가 수준은 물론이고 초등학교나 고등학교, 대학 등의 교육과정에서도 중요하다. 

왜냐하면 현재 우리는 기본적으로 자유롭게 어디서든 데이터에 접속할 수 있기 때문이다. 

그런 까닭에 앞으로 필요한 희소가치는 데이터를 이해하고 데이터에서 가치를 뽑아낼 수 있는 능력이다. 



반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함