TF-IDF와 유사도로 알아보는 벡터 모델 #2

티스토리 뷰

Cloud&BigData/BigData

루키~ 2016. 12. 5. 08:13

이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다.

다음과 같은 검색어가 주어졌다고 해보자.

검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다.

0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다.

이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다.

new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다.

문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다.

이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자.

거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용하는데, 여기에서는 코사인 거리를 적용해보기로 한다.

A는 문서 벡터와 관련된 값이고, B는 검색어 벡터와 관련된 값들이다.

위 그림들을 잘 조합해서 보면 식이 이해가 될 것이다.

어쨌든 위 결과를 살펴보면 검색어는 0.776으로 d1문서와 가장 가까운 것으로 나타난다.

그래서 검색어 결과를 d1으로 정해주면 된다.

보통 가중치를 주어서 계산하는 경우도 종종 있다.

이럴 경우, 가중치 값을 다음과 같이 처리해서 쿼리 벡터를 구할 때 추가로 곱해줘서 적용할 수도 있다.

이러한 TF-IDF와 유사도 방식의 벡터 모델은 문서 뿐만 아니라 이미지를 처리하는데도 사용한다고 한다.

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함