TF-IDF를 이용하여 문서의 크기를 구하는 방법을 앞 강의에서 살펴봤다. 이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다. 다음과 같은 검색어가 주어졌다고 해보자. 검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다. 0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다. 이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다. new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다. 문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다. 이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자. 거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용..
Cloud&BigData/BigData
2016. 12. 5. 08:13
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 마케팅
- 프로젝트
- 분석
- 빅데이터
- 책
- 클라우드
- 아이폰
- 하둡
- HTML
- java
- r
- 안드로이드
- 도서
- 애플
- Hadoop
- ms
- mysql
- fingra.ph
- 자바
- 웹
- 맥
- 세미나
- 모바일
- 디자인
- XML
- 통계
- 구글
- SCORM
- 자바스크립트
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함