티스토리 뷰
이제 본격적으로 빅데이터 가치 창출을 위한 5단계의 프로세스를 살펴보기로 한다.
이것은 일반적인 빅데이터 분석 과정인 "데이터 획득 - 데이터 준비 - 데이터 분석 - 시각화 - 활용"을 의미한다.
데이터 획득 (Acquire)
데이터 획득은은 단순히 데이터를 수집하는 것만을 의미하지 않는다.
먼저 데이터 셋을 명확하게 정의해야 한다.
어떤 데이터들이 있고, 해당 데이터의 특성이 무엇인지를 명확하게 설정해야 한다.
그리고 나서 데이터를 검색해보거나 쿼리를 할 수 있어야 한다.
개인적으로는 이 단계에서 데이터 속성을 파악하는 것이 중요하다고 생각한다.
데이터에 어떤 항목들이 포함되어 있고, 그것이 무엇을 의미하는 지를 알아야 올바른 가설 또는 문제를 정의할 수 있다.
데이터 준비 (Prepare)
데이터 준비 단계는 "데이터 탐험"과 "전처리"의 두 가지로 구성된다.
데이터 탐험은 데이터의 의미를 이해하는 과정이다.
데이터 시각화를 통해 사전 분석을 해보기도 하면서 데이터 본질을 이해하려고 노력하는 것이다.
획득 단계에서 파악한 속성들이 실제로 어떤 분포를 보이는지 준비 단계에서 다시 한번 확인하는 것이라 할 수 있다.
전처리는 수집된 데이터를 분석할 수 있도록 재구성하는 과정이다.
데이터를 명확하게 정리하고, 통합하고, 그룹화해서 실제 분석에 활용할 수 있는 형태로 구성한다.
필요할 경우, 이 단계에서 개인정보 비식별 처리를 할 수도 있다.
데이터 분석(Analyze)
다양한 데이터 분석 기술들 중에서 앞서 파악한 데이터 특성에 적합한 것을 선택하고 분석 모델을 구성하는 단계이다.
데이터 모델은 한번에 완성되는 것이 아니다.
여기에서 정의하고 있는 5단계 프로세스는 계속 반복해서 이루어져야 하며,
특히 이 단계에서 구성하는 데이터 모델을 발전시켜 나가는 과정이라고 봐야 한다.
데이터 시각화(Report)
데이터 시각화 단계는 분석 모델의 결과를 서로 논의해보는 단계라 할 수 있다.
다른 사람들과 공유할 수 있도록 시각화해서 제공하면서
그 결과에 대한 해석을 해보는 것이다.
데이터 과학은 주로 분석에 초점이 맞추어져 있지만, 실제로는 이 단계의 논의와 해석이 더 중요한 것 같다.
통찰(insight)은 바로 이 단계에서 나오는 경우가 많기 때문이다.
데이터 활용(Act)
활용 단계는 이전 단계에서 찾은 통찰을 실제로 적용해 보는 것이다.
앞서 강의에서 행동하지 않는 분석은 무의미하다고 이야기했다.
분석의 결과물을 적용할 수 있어야 진정한 데이터 과학이 완성되었다고 할 수 있다.
'Cloud&BigData > BigData' 카테고리의 다른 글
TF-IDF와 유사도로 알아보는 벡터 모델 #1 (0) | 2016.11.29 |
---|---|
데이터 모델링이란 무엇인가? (0) | 2016.10.31 |
빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #1 (0) | 2016.10.06 |
선형 회귀 분석의 결정계수를 통한 적합성 검증 (1) | 2014.12.29 |
선형 회귀 분석의 데이터를 이해해 보자~ (2) | 2014.11.03 |