개인정보와 빅데이터가 충돌하지 않게 하는 방법

|



"본 글은 2014년 2월 14일 지디넷코리아에 기고한 칼럼입니다."


최근 금융권에서 개인정보가 대량으로 유출돼 사회적으로 큰 이슈가 되고 있다. 

비록 해킹을 통한 정보 유출이 아니었지만 개인정보 보호에 대한 중요성이 높아지는 계기가 됐다. 

 

빅데이터 분석과 관련해서도 개인정보 보호 측면이 매우 중요하다. 

많은 데이터를 처리하다 보면 개인 정보가 포함될 가능성이 높기 때문이다. 

 

특히 고객 데이터를 분석해서 개별 고객에게 맞춤형 서비스로 제공한다고 가정해 보자. 

고객은 기업이 제공하는 세심한 서비스에 감동할 수도 있지만, 반대로 자신의 정보가 노출됐다는 생각에 불편해 질수도 있다.

 

그렇다면 빅데이터 분석에서 개인정보보호는 어떻게 접근해야할까?

 

먼저 빅데이터를 처리하는 플랫폼에 보안 관련 요소들을 추가해야 한다. 

 

기존 보안 매커니즘은 정형화된 데이터를 위해 설계됐기 때문에 비정형 데이터를 분산환경에서 대량으로 처리하는 빅데이터를 위한 보안 메커니즘을 새롭게 적용할 필요가 있다. 

 

빅데이터 분석에 가장 많이 사용하는 하둡(Hadoop)의 경우 허가(Authorization)와 인증(Authentication)을 제공한다. 

허가는 사용자에게 권한을 부여하는 것이고, 인증은 사용자 자격을 검증하기 위해 사용한다. 

특히 하둡 1.0부터 네트워크상에서 인증과 통신 암호화를 통해 보안성을 확보하는 알고리즘인 커버로스(Kerberos)를 지원하고 있다. 

 

하둡과 같은 빅데이터 처리 기술들은 분산 환경이기 때문에 분산 서버들 간 통신 보안도 추가로 고려해야 한다. 

 

하둡 맵리듀스는 맵(Map)과 리듀스(Reduce)가 반복적으로 수행하는데 이 과정에서 식별자인 키로 개인정보가 포함되어 사용될 수 있으므로 특히 주의해야 한다. 

 

요즘은 빅데이터를 저장하기 위해서 NoSQL과 같은 비관계형 데이터베이스를 주로 사용한다. 

기존 관계형 데이터베이스(RDBMS)는 많은 보안 이슈들이 오랜 기간 검증되었지만 새로운 기술인 NoSQL은 아직 보안 측면에서 부족한 것이 사실이다. 

 

NoSQL 관련 보안 처리는 NoSQL 자체에 의존하기 보다 개발하는 애플리케이션에서 수행하는 것이 바람직하다. 

개인정보와 같은 중요한 데이터는 애플리케이션에서 암호화해서 저장하는 것이 필요하다. 

특히 각 NoSQL마다 인증 방식이 다를 수 있기 때문에 인증 절차를 확인하고 개발하는 것이 중요하다. 

단순히 개발 편의성 때문에 별도 인증을 거치지 않는 것은 위험하다. 

 

빅데이터 분석시 개인정보보호를 위해 시작 단계부터 보안 관련 정책들을 미리 정해 놓는 것이 매우 중요하다. 

 

물론 이러한 보안 정책과 시스템이 갖춰져 있다고 개인정보보호 이슈가 완전히 사라지는 것은 아니다. 

최근 사건과 같이 내부 인력이 유출하는 정보는 어쩔 수 없다.

 

필자는 빅데이터 분석에서 개인정보를 아예 수집하지 않으면 어떨까 한다. 

수많은 데이터에서 유의미한 정보를 찾아내기 위해 개인별이 아닌 세분화된 그룹별로 분석을 하자는 것이다. 

 

이 경우 정보 수집 단계부터 개인 정보보다 연령대와 같이 특정 그룹단위로 저장하게 된다.  

개개인의 구분이 필요하면 기존 개인 정보가 아닌 자체 고유키를 생성해서 사용하면 된다. 

 

물론 개인정보를 수집하지 않으면 분석을 통해 개인별 맞춤형 서비스를 제공하기는 어려울 것이다. 

그러나 개인 정보 유출시 발생할 수 있는 손실과 위험성을 고려하면 이런 서비스가 과연 효과적인지 검토해 볼 필요가 있다. 

 

2012년 미국 할인 매장 업체인 타깃(Target)이 고등학생 딸을 둔 부모에게 유아용품 할인쿠폰을 보내서 거센 항의를 받고 사과한 사건이 있었다. 

임신한 여성이 할인 매장에서 구매하는 패턴을 분석해서 해당 쿠폰을 발송한 것이었다. 

 

하지만 실제로 여고생이 임신중이었고 부모도 모르는 딸의 임신 사실을 빅데이터 분석으로 알아낸 것이다. 

 

이 사례는 빅데이터 분석의 효과를 나타내고 있다. 

하지만 과연 이러한 분석이 비즈니스 마케팅으로서 효과적일까? 

 

오히려 기저귀 판매량이 증가하면 맥주 판매량도 함께 늘어난다는 분석을 바탕으로 기저귀와 맥주를 함께 진열한 월마트(walmart)의 사례가 비즈니스에 보다 도움이 되지 않을까 싶다.

 

즉, 빅데이터 분석의 본질로 돌아가면 개인정보 보호와 같은 이슈도 좀더 유연하게 해결이 가능해 보인다.

 

일련의 개인 정보 유출 사건들은 빅데이터 분석 활성화에 좋지 않은 영향을 줄 수 있다. 

하지만 개인정보 이슈 때문에 빅데이터 분석을 포기하는 것은 구더기 무서워 장 못 담그는 것과 마찬가지이다. 

 

오히려 빅데이터 실시간 분석을 활용해서 개인정보보호와 같은 실시간 보안 분석도 가능해질 것이다. 

서로 지혜를 모아서 빅데이터 분석과 개인정보보호라는 상관관계를 풀어나가야 할 시점이라고 본다. 





Trackback 0 And Comment 0
prev | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | next