본문 바로가기 메뉴 바로가기

미니의 꿈꾸는 독서, 그리고 프로그래밍 이야기

프로필사진
  • 글쓰기
  • 관리
  • 미니주요글
  • 미니가 읽은 책
  • 태그
  • 방명록
  • RSS

미니의 꿈꾸는 독서, 그리고 프로그래밍 이야기

검색하기 폼
  • 분류 전체보기 (647)
    • 사색 (289)
      • 독서 (148)
      • 칼럼 (9)
      • 세미나 (18)
      • 리뷰 (94)
      • 영어 (7)
    • Cloud&BigData (90)
      • 하둡(Hadoop) (22)
      • R (23)
      • BigData (18)
      • Machine Learing (20)
    • XML Developer (42)
      • SCORM (9)
      • XML기초 (8)
      • HTML5 (7)
      • 디자인 패턴 (12)
      • XSL (6)
    • 컴퓨터공학 (74)
      • 전산보안론 (7)
      • 소프트웨어공학 (5)
      • 디지털서비스 (18)
      • 디지털네트워크 (1)
      • 통계학 (9)
      • 프로젝트관리론 (34)
    • 프로그래밍 (151)
      • 아이폰 (15)
      • 안드로이드 (24)
      • 리눅스 (17)
      • MySQL (11)
      • Java (26)
      • Web (40)
      • 기타 (11)
    • 셀프 (0)
  • 방명록

TF-IDF (2)
TF-IDF와 유사도로 알아보는 벡터 모델 #2

TF-IDF를 이용하여 문서의 크기를 구하는 방법을 앞 강의에서 살펴봤다. 이번에는 이 문서들에서 대해 검색어를 처리하는 부분을 알아보기로 한다. 다음과 같은 검색어가 주어졌다고 해보자. 검색어 "new new york"에 대한 쿼리 벡터를 구하면 다음과 같다. 0.584란 값이 값자기 어디에서 나왔는지 궁금할수도 있을 듯 하다. 이전 강의에서 살펴본 각각의 단어의 IDF를 생각해보면 된다. new의 IDF값은 0.584이고, 전체 문서에서 2번 중 검색어도 2번 나왔으므로 2/2가 된다. 문서의 크기와 마찬가지로 검색어의 크기도 제곱하고 더한 후, 루트를 구하면 0.652가 나온다. 이제 유사도를 구하기위해서 문서와 검색어의 거리를 측정해보자. 거리를 구할 때는 유클리드 거리나 코사인 거리를 주로 사용..

Cloud&BigData/BigData 2016. 12. 5. 08:13
TF-IDF와 유사도로 알아보는 벡터 모델 #1

텍스트 문서를 기반으로 벡터 모델에 대해서 정리해 보려고 한다. 문서의 텍스트를 처리할 때 특정 단어가 몇 번 나왔는지를 주로 세어본다. 많이 나온 단어일수록 중요하기 때문이다. 그러나 "그리고", "the", "a"와 같이 모든 문서에서 많이 나오는 단어들은 실제로 의미가 없다. 그래서 TF-IDF라는 가중치를 사용하게 된다. TF(Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내고, DF(Document Frequency)는 단어가 문서내에서 흔하게 등장한다는 것을 나타낸다. 그래서 DF의 역수인 IDF(Inverse Document Frequency) 구해서 TF와 IDF를 곱한 값인 TF-IDF를 가중치로 사용한다. 다음과 같은 텍스트로 구성된 3개의 문서가 ..

Cloud&BigData/BigData 2016. 11. 29. 08:08
이전 1 다음
이전 다음
반응형
공지사항
최근에 올라온 글
  • 불편한 편의점
  • 통계조작에 속지 않으려면...
  • 돈의 심리학 - 당신은 왜 부자가 되지 못했는가
  • 김진명 역사소설 고구려 - 소수림왕편, 고국양왕편⋯
최근에 달린 댓글
  • 안녕하세요. 아래 링크 드린 블로그에서 글쓴이님 글 훔⋯
  • 안녕하세요? 상황인식 공부하는 대학원생입니다. 검색하다⋯
  • 서평을 읽는 것 만으로도 많은 생각을 하게 되네요. 맨⋯
  • 정리해주신 내용만 봐도 정말 도움이 많이 되네요 감사합⋯
Total
3,307,331
Today
0
Yesterday
437
링크
  • 수식입력_latex
  • W3Schools Online Web Tutorials
  • 영어 학습 사이트
TAG
  • 도서
  • 하둡
  • HTML
  • 맥
  • 마케팅
  • 자바스크립트
  • 디자인
  • 분석
  • 책
  • 빅데이터
  • 프로젝트
  • XML
  • Google
  • 자바
  • 웹
  • 세미나
  • 안드로이드
  • 구글
  • r
  • 클라우드
  • ms
  • Hadoop
  • SCORM
  • 통계
  • mysql
  • java
  • 아이폰
  • 애플
  • 모바일
  • fingra.ph
more
«   2023/04   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함
  • 2022/12 (2)
  • 2022/11 (1)
  • 2022/10 (3)
  • 2022/09 (5)
  • 2022/08 (5)

Blog is powered by Tistory / Designed by Tistory

티스토리툴바