티스토리 뷰

저자는 소셜형태의 구성을 통해 사례 중심으로 데이터에 대해 설명하고 있다. 
데이터에 관심있는 사람들에게는 쉽게 접근할 수 있는 책인 듯 하다.

개인적으로 데이터 시각화에서 자주 인용하는 존스노우의 콜레라 지도,
나이팅게일의 로즈다이어그램에 대한 이야기도 포함되어 있다.

데이터 수집의 목적, 데이터 시각화, 팩트가 담긴 데이터, 인류를 위한 데이터, 그리고 데이터 정의로 구성되어 있다.

"공평성을 가질 수 있는 데이터의 확보는 국민에게 신뢰를 주고 결과에 대한 공정성과 형평성을 준다."
데이터 수집과 활용의 궁극적인 목적이 바로 정보의 불균형을 해소하는 공평성에 있지 않을까 생각한다.

"데이터의 수집과 저장은 현상에 대한 이해를 위해서도 필요하지만, 변화하는 상황을 인지하는 데 더욱 더 요긴하다. 우리는 데이터의 수집에 머물지 말고 데이터를 통한 변화를 인지할 수 있는 시각을 길러야 한다."
데이터는 단순히 모아두는 것이 아니라 가치를 창출하기 위해 인사이트를 찾아내고 실제로 활용해야 한다.

컴퓨터공학을 전공한 저자가 소설을 쓰듯이 이야기를 풀어내는 것이 대단한 듯 하다. 
이외에도 참고할 만한 내용들을 정리해 본다.

"데이터 "Three Right" 상황에서 필요합니다. Three Right는 'Right Time, Right Place, Right Person'을 가리킵니다. 필요한 시기에, 필요한 장소에서, 필요한 사람에게 제공되어야 한다는 뜻입니다."

"데이터 수집의 정당성과 수집된 데이터 사용의 합리성에 대해서 생각해 볼 필요가 있다.
데이터는 정당하게 얻어야 한다. 비 합법적으로 얻어진 데이터를 유용하기 때문에 문제가 없다고 한다면 우리와 관련된 모든 데이터는 쉽게 노출될 것이다. 그리고 유용하다는 명목 하에 쉽게 활용될 것이다. 이래서는 개인의 존엄성에 위해가 가해질 수 있다. 개인의 데이터 또한 개인의 소유물이므로 승인 받고 사용되어야 하고 사용되는 영역과 기간 또한 합의가 되어야 한다. 그래야 우리는 우리의 데이터를 가치 있게 만들 수 있는 것이다."

"문제 해결에 데이터를 활용하려면 다음과 같은 5단계의 절차를 고려해 봐야 한다.
첫 번째 단계는 목적 정의다. 즉, 방향을 설정하는 것이다.
두 번째 단계는 데이터 수집이다. 목적에 맞는 데이터를 수집해야 한다.
세 번째 단계는 데이터 통합이다. 데이터 코드나 기준을 정하고 통합시 이 기준을 적용해야 한다.
네 번째 단계는 분석 진행이다. 전체적인 입장의 분석도 진행되지만 세부적인 분석도 진행된다.
다섯 번째 단계는 분석 결과의 해석이다. 그래프로 그려 설명하거나 문장으로 정리해서 보고하는 단계가 필요하다."

더보기

데이터 수집에는 목적이 있어야 한다

-- "에너지 혁명 2030"의 저자 토니 세바는 '2016 에너지 포럼'에서 두 장의 사진(1990년과 1913년에 찍은 뉴욕시의 모습)을 보여주며 변화를 설명했다.
"1990년, 뉴욕의 도로는 말과 마차만이 눈에 띄었다. 이때 그동안 보지 못했던 기계 한 대가 도로에 나타났다. 말도 마부도 없지만 시끄럽게 도로를 지나고 있었다. 사람들은 이 기계를 시끄럽고 못생겼고 위험한 물건이라고 했다. 13년이 지난 1913년, 마차가 다니던 길은 자동차가 점령했고 마차의 모습은 거의 찾아볼 수 없다. 사람들은 이제 자동차가 아닌 마차를 걱정스럽게 바라봤다."

데이터 시각화, 다르게 보면 새로운 길이 보인다

-- 데이터를 쌓아둔 공간을 '데이터 허브'라고 한다. '데이터 허브'에는 관련된 데이터뿐만 아니라 이를 활용 할 수 있는 도구(조회 또는 분석용)도 같이 갖추어져 있다. 데이터가 모아져 있다고 활용이 잘 되는 것은 아니다. 홍보도 하고 교육도 해야 한다. 여기서 쌓여지는 데이터를 자동으로 활용하는 방법을 생각해 볼 수 있다. 자동으로 활용한다는 것은 '환자 대량 발생'과 같은 긴급 상황을 즉각 인지할 수 있도록 시스템 체계를 갖추는 것이다. 이를 가리켜 'Alert 기능'이라고 한다. 자동차에 연료가 떨어지면 '연료 경고등'에 빨간 불이 오는 것과 같은 원리다.

-- 세계적인 경영컨설턴트인 니콜라스 카는 그의 책 "빅 스위치"에서 데이터를 인프라로 정의하고 있다. 우리가 콘센트에 전기 코드를 꽂으면 전기를 쓸 수 있듯, 데이터도 어딘가(여기서는 클라우드 시스템을 의미하고 있다)에 코드를 꽂으면 쉽게 사용 할 수 있는 인프라가 되었다고 말하고 있다. 통신환경의 발달은 정보의 불균형을 해소하고 있다. 데이터도 이제는 공공재가 되어가고 있는 것이다. 단편적인 데이터만을 제공하는 차원을 넘어 데이터 간의 관련성을 구비한 데이터 허브는 공공재로서의 유용한 인프라가 될 것이다.

팩트가 담긴 데이터

-- "근데 자네 그거 아는가? 지도가 시간을 머금고 있는 거 말이네." 김정호는 나그네에게 불쑥 물었다.
"음, 그건 또 무슨 말인가?" 나그네는 김정호가 말한 '시간을 머금는다는 것'이 무엇인지 궁금해졌다.
"좀 전에 지도는 지금의 땅덩어리를 그린 것이라고 했잖은가. 하지만 그 땅에 사는 사람들에게는 그렇게 단순한 게 아니야. 그 땅과 관련된 과거의 기억을 가지고 산다네. 그러니까 역사 말이네. 이 지역의 옛날 이름은 뭐였는지, 그때 임금은 누구였고, 누가 지방 수령이었고 하는 그런 역사 말일세. 지도는 이런 것을 머금고 있지."

인류를 위한 데이터, 데이터를 위한 인류

-- 멜서스가 '인구론'에서 주장하는 핵심은 '빈곤'에 있다. 멜서스는 인구 증가가 결국 빈곤으로 이어지며, 이유는 인구 증가가 식량 증가보다 더 빠르기 대문이라고 주장했다.
멜서스는 인구의 증가로 인한 식량 부족을 얘기하면서 기술의 발달에 대해서는 모른 척한 것 같다. '필요는 발명의 어머니'라는 말이 있듯이 인간은 부족한 것은 새로운 아이디어와 기술 발전으로 채우고 한계는 뛰어 넘으려고 하는 성향이 있다.

-- 멜서스의 '인구론'에서 참조한 수치에는 이민자의 인구이동이나 산업화와 과학의 발전에 따른 평균 사망 나이의 상승은 고려되지 않았다. 데이터에 나타난 수치는 당시(데이터 발생 시기)의 시대상이나 환경이 반영된다. 인구가 증가하는 그래프를 보면서 경제 발전을 떠올리고, 1인 가구가 증가하는 그래프를 보면서 혼밥, 혼술이란 말을 쉽게 떠올린다. 이는 데이터에 시점이 포함되었기 때문이다. 데이터에 시점이 담겨있음을 염두에 둔다면 데이터가 주는 수치의 흐름과 시대의 맥락을 파악하는 혜안을 얻으리라 생각한다.

-- 진화론을 옹호한 이들 중, 영국에서 가장 뛰어난 생물학자이자 해부학자인 '토머스 헉슬리'의 기막힌 답변은 아직도 사람들의 머릿속에 오래도록 남아있다.
"나는 원숭이가 내 조상이라는 사실이 부끄러운 것이 아니라 (당신처럼) 뛰어난 재능을 가지고도 사실을 왜곡하는 사람과 혈연 관계라는 점이 더욱 부끄럽습니다."

데이터란 무엇인가

-- 데이터 산업은 빙산의 구조와 같다. 빙산은 물 위로 10%를 보여주고, 나머지 90%는 물 아래에 놓여져 있다.
데이터 생태계도 이와 다르지 않다. 사람들에게 보여지는 부분은 전체 데이터의 10%정도일 것이다.
나머지 90%는 보이지 않는 곳에서 열심히 활용되거나, 침묵을 지키고 있다.
우리는 10%를 위해, 90% 속에서 오늘도 데이터와 함께 있다.

-- 데이터베이스에는 데이터가 저장된 테이블이 있다. 이곳에 저장된 데이터는 주로 업무 처리용으로 사용되고, 데이터를 분석을 위해 별도의 보관 장소로 옮겨진다. 이곳을 데이터 웨어하우스 또는 데이터 마트라고 부른다. 목적과 규모에 따라 구성 방식이 다른데, 전사의 데이터가 모이면 데이터 웨어하우스 또는 전사 데이터 웨어하우스(EDW)라고 부르고, 부서 단위 또는 고객 중심의 특수 목적으로 데이터가 모이면 데이터 마트라고 부른다.

-- 빅데이터 인프라에는 데이터 레이크라는 용어가 나온다. 데이터를 모아둔 저장소를 가리키는 말이지만 데이터 웨어하우스와는 방식이 다르다. 데이터 웨어하우스는 데이터를 정제되고 구조화된 형식으로 모아두지만 데이터 레이크는 원시 그대로의 상태로 모아둔다.

-- 시간, 상점, 품목과 같은 명사형 데이터는 마스터 데이터(Master Data, 기준정보)라고 하고, 수량과 금액과 같은 행위에 대한 기록은 트랜잭션 데이터(Transaction Data, 처리 데이터)라고 한다.

-- 데이터 축적을 위한 투자는 당장 효과를 볼 수 없다. 하지만 어느 정도 시간이 지나면 분명 효과를 보게 된다.
아마존이나 넷플릭스처럼 데이터 활용이 회사 내의 기본 문화로 자리잡게 된다면 데이터는 회사의 전략과 비전을 지원하는 좋은 자원이 되어줄 것이다. 이것이야말로 데이터가 힘이 되는 세상이다.

-- 데이터는 아무리 사용해도 사라지지 않는 무한성과, 어디서나 손쉽게 활용할 수 있는 접근성, 데이터 간의 연결을 통해 새로운 데이터를 만들 수 있는 확장성이라는 세 가지 속성을 가지고 있다.

에필로그: 역사 속 데이터와 현실의 데이터를 바라보며

2015년, 중국 알리바바의 마윈 회장이 DT(Data Technology, 데이터 기술)를 강조했다. 그는 '앞으로의 시대는 IT 시대가 아닌 DT 시대"라고 했다. 이 말은 수집하고 분석한 데이터를 기반으로 새로운 제품과 서비스를 만들어야 한다는 것을 의미한다.

댓글
댓글쓰기 폼