TF-IDF를 이용하여 문서의 크기를 구하는 방법을 앞 강의에서 살펴봤다. 이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다. 다음과 같은 검색어가 주어졌다고 해보자. 검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다. 0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다. 이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다. new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다. 문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다. 이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자. 거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용..
Cloud&BigData/BigData
2016. 12. 5. 08:13
반응형
공지사항
최근에 달린 댓글
- Total
- 3,307,331
- Today
- 0
- Yesterday
- 437
TAG
- 맥
- 디자인
- 웹
- 자바
- r
- 프로젝트
- HTML
- 모바일
- 마케팅
- 구글
- 하둡
- ms
- XML
- mysql
- 애플
- 분석
- 아이폰
- 자바스크립트
- SCORM
- 클라우드
- 통계
- java
- 세미나
- 책
- 빅데이터
- 안드로이드
- fingra.ph
- 도서
- Hadoop