본문 바로가기 메뉴 바로가기

미니의 꿈꾸는 독서, 그리고 프로그래밍 이야기

프로필사진
  • 글쓰기
  • 관리
  • 미니주요글
  • 미니가 읽은 책
  • 태그
  • 방명록
  • RSS

미니의 꿈꾸는 독서, 그리고 프로그래밍 이야기

검색하기 폼
  • 분류 전체보기 (647)
    • 사색 (289)
      • 독서 (148)
      • 칼럼 (9)
      • 세미나 (18)
      • 리뷰 (94)
      • 영어 (7)
    • Cloud&BigData (90)
      • 하둡(Hadoop) (22)
      • R (23)
      • BigData (18)
      • Machine Learing (20)
    • XML Developer (42)
      • SCORM (9)
      • XML기초 (8)
      • HTML5 (7)
      • 디자인 패턴 (12)
      • XSL (6)
    • 컴퓨터공학 (74)
      • 전산보안론 (7)
      • 소프트웨어공학 (5)
      • 디지털서비스 (18)
      • 디지털네트워크 (1)
      • 통계학 (9)
      • 프로젝트관리론 (34)
    • 프로그래밍 (151)
      • 아이폰 (15)
      • 안드로이드 (24)
      • 리눅스 (17)
      • MySQL (11)
      • Java (26)
      • Web (40)
      • 기타 (11)
    • 셀프 (0)
  • 방명록

코사인 거리 (1)
TF-IDF와 유사도로 알아보는 벡터 모델 #2

TF-IDF를 이용하여 문서의 크기를 구하는 방법을 앞 강의에서 살펴봤다. 이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다. 다음과 같은 검색어가 주어졌다고 해보자. 검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다. 0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다. 이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다. new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다. 문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다. 이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자. 거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용..

Cloud&BigData/BigData 2016. 12. 5. 08:13
이전 1 다음
이전 다음
반응형
공지사항
최근에 올라온 글
  • 불편한 편의점
  • 통계조작에 속지 않으려면...
  • 돈의 심리학 - 당신은 왜 부자가 되지 못했는가
  • 김진명 역사소설 고구려 - 소수림왕편, 고국양왕편⋯
최근에 달린 댓글
  • 안녕하세요. 아래 링크 드린 블로그에서 글쓴이님 글 훔⋯
  • 안녕하세요? 상황인식 공부하는 대학원생입니다. 검색하다⋯
  • 서평을 읽는 것 만으로도 많은 생각을 하게 되네요. 맨⋯
  • 정리해주신 내용만 봐도 정말 도움이 많이 되네요 감사합⋯
Total
3,307,331
Today
0
Yesterday
437
링크
  • 수식입력_latex
  • W3Schools Online Web Tutorials
  • 영어 학습 사이트
TAG
  • Google
  • 맥
  • 디자인
  • 웹
  • 자바
  • r
  • 프로젝트
  • HTML
  • 모바일
  • 마케팅
  • 구글
  • 하둡
  • ms
  • XML
  • mysql
  • 애플
  • 분석
  • 아이폰
  • 자바스크립트
  • SCORM
  • 클라우드
  • 통계
  • java
  • 세미나
  • 책
  • 빅데이터
  • 안드로이드
  • fingra.ph
  • 도서
  • Hadoop
more
«   2023/04   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함
  • 2022/12 (2)
  • 2022/11 (1)
  • 2022/10 (3)
  • 2022/09 (5)
  • 2022/08 (5)

Blog is powered by Tistory / Designed by Tistory

티스토리툴바