빅데이터가 만드는 세상 - 데이터는 알고 있다. 삶과 일, 그리고 생각하는 방식을 바꿔놓을 대혁명

|



미니서평

옥스퍼드 대학 교수인 빅토르 마이어 쇤버거 교수와 이코노미스트의 기자인 케네스 쿠키어가 쓴 빅데이터와 관련된 이야기다. 

흔히 통계 분석과 빅데이터 분석을 동일하게 인식하는 경향이 있는데 

두 저자는 전문가 답게 데이터의 차이, 즉 일부에서 전체로의 변화로 빅데이터를 규정하면서 글을 시작한다. 


즉, 과거에는 통계 분석을 위해 샘플링된 정확하고 정밀한 데이터가 필요했지만

빅데이터 분석에서는 모든 데이터를 다루기 때문에 일부 들쭉날쭉한 데이터도 문제가 없다는 점이다. 


포도밭의 온도를 측정해야 한다고 생각해보자. 

밭 전체에 온도 센서가 하나뿐이라면 우리는 그 센서가 언제나 정확히 작동하도록 철저히 관리해야 한다. 

들쭉날쭉함은 허용되지 않는다. 

그러나 포도나무 100그루마다 센서를 설치할 거라면 좀 더 저렴하고 덜 정교한 센서를 사용해도 된다. 

이 경우 센서들 중 몇 개는 가끔 부정확한 데이터를 보고할 수도 있다. 

하지만 개별 수치는 틀렸을지 몰라도 많은 측정 데이터가 집계된 결과는 좀 더 종합적인 그림을 제공할 것이다. 


이번에는 센서를 읽는 횟수를 증가시킨다고 생각해보자.

1분에 한 번씩 측정을 한다면 데이터가 도착하는 순서는 완벽하게 시간순이라고 확신해도 좋을 것이다. 

하지만 1초에 10회, 혹은 100회를 측정한다면 순서가 정확한지 확신하기는 힘들 수 있다. 

순서에 대한 정보는 다소 정확성이 줄겠지만 수량이 워낙 많다 보니 엄격한 정밀성을 포기할 만한 가치가 있다. 


첫 번째 예시에서는 정보의 범위를 늘리기 위해 각 데이터의 정확성을 희생한 대신 알 수 없던 세부 정보를 얻었다. 

두 번째 예시에서는 빈도수를 늘리기 위해 정밀성을 포기한 대신 변화 양상을 알게 됐다. 

많은 경우 오류를 막으려고 하는 것보다 용인하는 편이 더 좋은 결과를 가져온다. 


그리고 빅데이터에 항상 등장하는 인과성과 상관성에 대해 설명한다. 

일반적으로 상관관계는 피어슨 상관계수나 스피어만 상관계수 등을 통해 두 변화하는 변수 사이의 상관성을 파악할 수 있다. 

물론 수백, 수천개의 변수에서 상관관계를 찾아내는 것도 쉬운 일은 아니다. 

그러나 인과관계를 파악하기 위해서는 더 많은 실험과 검증을 해봐야 하고, 때론 원인을 파악할 수 없는 경우도 많다. 


그래서 저자는 빅데이터 분석에서는 상관관계만 밝혀 내 활용하면 된다고 주장한다. 

즉, 결론만 알고 반영하면 되지 원인까지 찾아내려고 하지 말라는 것이다. 


흔히 상관관계를 알아내면 미래를 예측할 수 있고, 인관관계까지 밝혀내면 미래를 바꿀 수 있다고 말한다. 

현재 시점에서는 미래를 예측하는 것이라도 잘 하자는 것으로 받아들여진다. 


또 하나 흥미로운 점은 데이터 조합에 따른 2차 활용으로 새로운 가치를 만들어낼 수 있다는 점이다. 

이와 관련하여 관심을 가졌던 부분은 개인정보보호를 위해 현재의 개인 동의 방식에서 데이터 이용자 책임으로 바꾸자는 제안이다. 

실제로 빅데이터와 관련해 개인 동의를 받는다는 것은 현실적으로 불가능하다. 

그렇다고 100% 완벽한 비식별화, 또는 익명화도 어렵다. 

결국, 데이터를 이용하고 관리하는 주체가 책임을 지고 사용하라는 것이다.  


그러나 이럴 경우 발생할 수 있는 데이터 오남용 또는 데이터 독재를 막기 위해 

회계 감사와 같이 데이터 분석의 알고리즘 등을 검증할 수 있는 알고리즈미스트의 제안은 매우 신선했다. 


비교적 빅데이터 초기 단계인 2013년에 발간된 책임에도 불구하고 

빅데이터의 영향에 대한 정확한 진단과 위험성에 대한 경고 등이 상당히 구체적인 책이다. 


참고로 책을 보면 '빅데이터'라고 하지 않고 '빅 데이터'라고 표기되어 있다. 

그래서 구글 트랜드로 검색해 보니 우리나라와 달리 영어권에서는 "big data"로 표기하는 것이 일반적인 듯하다.



즉, 빅데이터가 하나의 단어가 아니라 데이터가 크다는 의미로 사용되는 것 같다. 

혹자는 빅 데이터의 빅은 데이터의 크기가 아니라 가치가 큰 것이라고 말하지만, 

이 책의 저자는 일부가 아닌 전체 데이터로서 빅 데이터를 이야기하는 것으로 보여진다.  



밑줄긋기

빅데이터 세상에서는 인과관계에 얽매일 필요가 없어진다. 

그 대신 우리는 패턴이나 상관성을 찾아내어 새로운 이해와 귀중한 통찰을 얻을 것이다. 

상관성은 어떤 일이 정확히 왜 벌어지고 있는지 설명하지 못할 수도 있다. 

하지만 그 일이 지금 일어나는 중이라고 경고해줄 수는 있다. 

빅데이터에서 중요한 것은 결론이지 이유가 아니다. 

어떤 현상의 원인을 항상 알아야 할 필요는 없다. 

우리는 데이터 스스로 진실을 드러내게 하면 된다. 

---

상관성에 기초한 예측은 빅데이터의 핵심이다. 

이제는 상관분석이 너무나 빈번하게 사용되는 나머지, 때로 우리는 상관분석이 미친 영향을 알아보지 못하기도 한다. 

그리고 앞으로도 이런 상관 분석의 활용은 계속해서 늘어날 것이다. 


상관성은 '이유'가 아닌 '결론'을 알려주며 이미 앞에서 보았듯이 결론을 아는 것만으로도 충분한 경우가 많다. 

---

'데이터'라는 말은 라틴어로 '사실'로서 '주어진다'는 뜻이다. 이것은 유클리드가 쓴 고전의 제목이기도 하다. 

어떤 현상을 데이터화한다는 것은 표로 만들고 분석이 가능하도록 그 현상을 수량화된 형태로 만든다는 뜻이다. 

다시 말하지만 데이터화와 디지털화는 서로 아주 다른 개념이다. 

디지털화란 아날로그 정보를 컴퓨터가 처리할 수 있도록 2진법 코드의 0과 1로 만든다는 뜻이다. 

---

지금 우리는 위대한 인프라 구축 프로젝트의 한가운데 와 있다. 

로마의 수도 시설은 도시의 성장을 가능하게 했다. 

인쇄술은 계몽주의 운동을 가능하게 했으며 신문은 민족국가가 나타나게 했다. 

하지만 이런 인프라들은 '흐름'에 초점이 맞춰져 있었다. 

물의 흐름, 지식의 흐름처럼 말이다. 

전화기도 마찬가지였고 인터넷도 그랬다. 

반면에 데이터화는 인간의 이해가 풍부해짐을 뜻한다. 

빅데이터의 도움으로 우리는 더 이상 세상을 사건의 연속으로 보지 않게 될 것이다. 

우리가 자연적 현상 혹은 사회적 현상이라고 설명하는 사건들 말이다. 

그 대신에 우리는 세상이 본질적으로 정보로 구성된 우주임을 보게 될 것이다. 

---

덴마크 암 학회의 연구 팀은 기존에 수집된 데이터를 기초로 흥미로운 접근법을 만들어냈다. 

먼저 이동전화 사업자들로부터 덴마크에 휴대전화가 도입된 이래 휴대전화에 가입한 전체 가입자 데이터를 얻었다. 

그리고 관리하던 암 환자의 기록과 덴마크 주민 학력과 가처분소득에 관한 전국적 자료를 활용했다. 

연구팀은 이 세 데이터 집합을 결합한 후 휴대전화 이용자가 비가입자보다 더 높은 암 발병률을 보였는지 조사했다. 

그리고 휴대전화 가입자 내에서는 휴대전화를 더 오래 소유한 사람이 암에 더 잘 걸렸는지 살폈다. 

결국 연구 팀은 휴대전화와 관련해서 암 발생 위험이 증가했다는 증거는 전혀 찾지 못했다. 

그리고 그런 이유로 이 연구 결과가 2011년 10월 영국의 의료저널 <BMJ>에 실렸을 때도 미디어의 주목을 거의 받지 못했다. 

하지만 만약 관련성이 발견되었더라면 이 연구는 전 세계 뉴스의 1면에 났을 것이고 '재조합 데이터' 방법론도 찬사를 받았을 것이다. 

---

구글의 수석 경제연구원인 할 배리언이 통계학자를 가장 '섹시한' 직업이라고 칭한 얘기는 유명하다.

"성공하고 싶다면 흔히 볼 수 있고 싼 것을 보충해주는 희소한 사람이 되어야 합니다." 배리언의 말이다.

"데이터는 도처에 널려 있고 전략적으로도 중요한데 여기서 희소한 것은 데이터로부터 지혜를 끌어낼 수 있는 지식이에요.

바로 그 때문에 통계 전문가들, 데이터베이스 매니저들, 기계 학습 전문가들이 굉장한 위치에 있게 되는 겁니다."

하지만 기술에 대한 지대한 관심과 데이터의 중요성을 얕보는 풍조는 얼마 못 가 사라질지도 모른다.

업계가 진화함에 따라 배리언이 말하는 기술이 흔해지면 인력 부족은 극복될 것이기 때문이다.

그리고 실제로는 데이터야말로 결정적인 구성 요소다.

---

빅데이터 초기 단계에 불과한 현재로서는 아이디어와 기술이 가장 큰 가치를 지닌 것 같다.

하지만 결국에 가면 대부분의 가치는 데이터 자체에 있을 것이다.

왜냐하면 우리는 정보를 가지고 더 많은 것을 할 수 있게 될 것이고,

데이터 보유자들은 자신이 소유한 자산의 잠재적 가치를 더 잘 알게 될 것이기 때문이다.

결과적으로 데이터 보유자들은 그 어느 때보다도 더 데이터를 꽉 움켜쥐려고 할 것이고

이에 접근하려는 외부인들에게는 높은 가격을 책정할 것이다.

다시 한 번 금광에 비유하자면 금 자체가 가장 중요해진다는 얘기다.

---

인터넷 시대가 사생활을 위협했다면 빅데이터는 사생활을 더 큰 위험에 빠뜨릴 것인가?

이것이 바로 빅데이터의 어두운 면인가?

그렇다. 그리고 이걸로 끝이 아니다.

여기서도 중요한 것은 규모의 변화가 상태의 변화를 낳는다는 점이다.

앞으로 보겠지만 이런 변화는 사생활 보호를 더 힘들게 만들 뿐만 아니라 완전히 새로운 위협 요소도 제시한다.

바로 성향에 기초한 불이익이 그것이다.

사람들이 행동하기도 전에 그들을 판단하고 벌주기 위해 빅데이터 예측을 사용한다면 이런 일이 벌어질 수 있다.

그리고 이것은 공정, 정의, 자유의지라는 개념을 무효화시켜버린다.

---

물론 빅데이터는 많은 혜택을 줄 수 있다.

빅데이터를 인간성 말살의 무기로 만드는 것은 빅데이터 예측을 이용하는 우리의 방식이 가진 결함이지

빅데이터 자체의 결함이 아니다.

핵심은 예측된 행동을 저지르기도 전에 그 행동에 대한 책임을 묻는 것은 상관성을 가지고 인과관계를 결정하는 오류라는 점이다.

빅데이터 예측은 상관성이 기초한 것이고 개인의 책임은 인과관계에 바탕을 두니까 말이다.

빅데이터는 현재와 미래의 위험을 이해하고 그에 맞춰 우리의 행동을 조절하는 데 유용한 툴이다.

 

문제는 인간이 세상을 원인과 결과라는 렌즈를 통해 보려고 한다는 점이다.

그래서 빅데이터는 인과적 목적에 남용될 위험을 언제나 안고 있다.

또 빅데이터 예측을 사용하면 책임 할당에 관한 의사 결정을 훨씬 더 효과적으로 할 수 있을 거라는 장밋빛 상상을 하게 만들기도 한다.

 

하지만 이것은 <마이너리티 리포트>에 그려진 사회로 직행하는, 틀림없는 파멸의 길이다.

개인의 도덕적 잣대를 대신하며, 집단의 명령이라는 거칠 것 없는 공격에 개인들이 마구 노출되는 세상 말이다.

이런 식으로 이용된다면 빅데이터는 우리를 말 그대로 확률이라는 감옥에 가둬버릴 것이다.

---

'동의에 의한 사생활 보호'에서 '책임에 의한 사생활 보호'로의 규제 변화에 더해

우리는 특정 상황에서 사생활 보호를 도와줄 기술적 혁신을 그려볼 수 있다.

그런 혁신적 접근법 중에 하나가 '차등적 사생활(differential privacy)'이라는 개념이다.

의도적으로 데이터를 흐리게 만들어서 커다란 데이터 집합을 검색해도 정확한 결과가 나오지 않고

근사치의 결과만 나오게 만드는 것이다.

이렇게 되면 특정한 개별 데이터와 특정인을 연관시키는 일이 어려워진다.

그 대신 비용이 많이 들게 된다.

---

우리는 빅데이터 예측과 그 배후에 있는 알고리즘 및 데이터 집합이 블랙박스가 되어버릴 위험이 있다는 것을 알 수 있다.

책임도, 추적 가능성도, 확신도 없는 블랙박스 말이다.

이런 위험을 막기 위해서는 빅데이터에 대한 모니터링과 투명성이 필요할 것이다.

그리고 또 이를 위해서는 새로운 유형의 전문 기술과 제도가 필요할 것이다.

 

빅데이터에 대해서 새로운 집단의 사람들이 이 역할을 맡아 주어야 할 것이다.

아마 그들은 '알고리즈미스트(algorithmist)'라고 불릴 것이다.

이들은 두 가지 형태일 수 있다.

회사 외부에서 회사를 모니터링하는 독립체들이 있을 수 있고,

회사 내부에서 회사를 모니터링하는 직원이나 부서들도 있을 수 있다.

마치 회사 내부에도 회계사가 있고 외부에도 회계 감사자가 있는 것처럼 말이다.

---

우리가 수집하고 처리할 수 있는 것은 언제나 세상에 존재하는 정보 중 아주 작은 일부에 불과할 것이다. 

이것은 기껏해야 현실의 모사품이다. 

플라톤의 동굴 벽에 비쳤던 그림자처럼 말이다. 

우리는 결코 완벽한 정보를 가질 수 없기에 우리가 내놓는 예측은 처음부터 잘못될 가능성을 내포한다. 

하지만 이것은 예측이 틀렸다는 뜻이 아니며, 다만 언제나 불완전하다는 뜻이다. 

이것 때문에 빅데이터가 내놓는 통찰이 무효가 되지는 않으며 그저 빅데이터의 제자리가 어디인지 알려주는 것뿐이다. 

궁극적인 답을 제시하지 않는 도구로서의 자리, 더 나은 방법과 더 나은 답이 나올 때까지 우리를 도와주는 그냥 충분히 괜찮은 도구로서의 자리 말이다.

그리고 이것은 우리가 빅데이터라는 툴을 사용할 때 충분한 겸손과 충분한 인간성을 함께 발휘해야 햔다는 뜻이기도 하다.  



더보기


신고



Trackback 0 And Comment 0
prev | 1 | ··· | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | ··· | 592 | next