티스토리 뷰
데이터 모델링이란 무엇일까?
먼저 데이터를 기반으로 모델을 만드는 것을 생각해 볼 수 있다.
그러나 처음부터 모델을 만드는 것에 집착하는 것은 바람직하지 않다.
너무 추상적이기도 하고, 어떤 모델을 어떻게 만들어야 할지 막막하기만 하다.
다른 측면에서 데이터 모델링을 정의해 보면,
데이터 모델링은 데이터의 속성을 설명할 수 있고 이해하는 것이라 할 수 있다.
흔히 데이터 분석을 이야기할 때, 먼저 데이터의 특성을 파악하라고 한다.
데이터의 특성을 파악하기 위해서는 다음 세 가지 항목을 알아야 한다.
데이터 구조, 데이터 연산, 그리고 데이터 제약조건이다.
특히 데이터 제약조건은 데이터 의미를 파악하는데 유용하게 활용할 수 있다.
데이터 구조
데이터 구조는 정형(structued), 반정형(semi-structured), 비정형(unstructued)으로 나누어진다.
정형 데이터는 데이터베이스와 같이 구조화된 형태로 제공되는 것을 의미한다.
반정형 데이터는 고정된 필드로 저장되어 있지는 않지만, HTML이나 XML과 같이 메타 데이터나 스키마를 포함한 것을 말한다.
비정형 데이터는 동영상, 이미지와 같이 구조화 되어 있지 않은 것을 의미한다.
빅데이터 분석에서 기본적으로 정형, 반정형 데이터를 기반으로 하지만, 비정형 데이터도 처리할 수 있어야 한다
데이터 연산
다양한 데이터 연산이 있지만 간략하게 네 가지만 살펴보기로 한다.
첫째, 데이터 부분집합(subsetting)으로 전체 데이터의 일부분을 가져오는 것을 의미한다.
보통 특정 조건을 만족하는 데이터 셋을 가져오는데 사용한다.
둘째, 데이터 추출(substructure extraction)로 데이터 일부분을 가져온다는 측면에서 부분집합과 유사하다.
그러나 데이터 구조를 나타내는 필드 중 특정 조건에 적합한 일부 필드만을 가져온다는 차이점은 있다.
셋째, 유니온(union)으로 데이터간 결합을 의미한다.
일반적으로 동일한 데이터 필드를 가진 두 개의 데이터 셋을 결합할 때 사용하며,
중복을 제거하고 새로운 데이터 셋을 생성하게 된다.
넷째, 조인(join)으로 데이터를 결합하는 연산이 있다.
유니온과 달리 서로 다른 필드를 가진 데이터 셋 결합도 가능하며, 보통 두 데이터셋을 연결하는 키(key)를 가지고 있다.
데이터 제약조건(constrains)
제약조건은 논리적으로 데이터의 특성을 나타내는 역할을 한다.
예를 들어, "영화는 제목을 하나 가지고 있다."와 같은 부분이 제약조건이라고 할 수 있다.
데이터 타입에 대한 제약조건으로 Value constraints, Uniqueness constraints, Cardinality constraints가 있다.
Value constraints: 나이는 음수가 나올 수 없다.
Uniqueness constraints: 영화는 제목이 하나만 나온다.
Cardinality constraints: 혈액형은 O형, A형, B형, AB형으로 나눈다.
또한 세부 데이터가 아닌 데이터 구조에 따른 제약조건도 있다.
행렬을 구조적으로 표현하기 위해 다음과 같은 제약조건을 활용할 수 있다.
'Cloud&BigData > BigData' 카테고리의 다른 글
TF-IDF와 유사도로 알아보는 벡터 모델 #2 (0) | 2016.12.05 |
---|---|
TF-IDF와 유사도로 알아보는 벡터 모델 #1 (0) | 2016.11.29 |
빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #2 (0) | 2016.10.12 |
빅데이터 가치 창출을 위한 데이터과학의 5단계 프로세스 #1 (0) | 2016.10.06 |
선형 회귀 분석의 결정계수를 통한 적합성 검증 (1) | 2014.12.29 |