본문 바로가기 메뉴 바로가기

컴퓨터, 독서, 학습, 그리고 사람

프로필사진
  • 글쓰기
  • 관리
  • 미니주요글
  • 미니가 읽은 책
  • 태그
  • 방명록
  • RSS

컴퓨터, 독서, 학습, 그리고 사람

검색하기 폼
  • 분류 전체보기 (636)
    • 사색 (278)
      • 독서 (139)
      • 칼럼 (9)
      • 세미나 (18)
      • 리뷰 (94)
      • 영어 (7)
    • Cloud&BigData (90)
      • 하둡(Hadoop) (22)
      • R (23)
      • BigData (18)
      • Machine Learing (20)
    • XML Developer (42)
      • SCORM (9)
      • XML기초 (8)
      • HTML5 (7)
      • 디자인 패턴 (12)
      • XSL (6)
    • 컴퓨터공학 (73)
      • 전산보안론 (7)
      • 소프트웨어공학 (5)
      • 디지털서비스 (18)
      • 디지털네트워크 (1)
      • 통계학 (8)
      • 프로젝트관리론 (34)
    • 프로그래밍 (151)
      • 아이폰 (15)
      • 안드로이드 (24)
      • 리눅스 (17)
      • MySQL (11)
      • Java (26)
      • Web (40)
      • 기타 (11)
    • 셀프 (0)
  • 방명록

스칼라 (1)
TF-IDF와 유사도로 알아보는 벡터 모델 #1

텍스트 문서를 기반으로 벡터 모델에 대해서 정리해 보려고 한다. 문서의 텍스트를 처리할 때 특정 단어가 몇 번 나왔는지를 주로 세어본다. 많이 나온 단어일수록 중요하기 때문이다. 그러나 "그리고", "the", "a"와 같이 모든 문서에서 많이 나오는 단어들은 실제로 의미가 없다. 그래서 TF-IDF라는 가중치를 사용하게 된다. TF(Term Frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내고, DF(Document Frequency)는 단어가 문서내에서 흔하게 등장한다는 것을 나타낸다. 그래서 DF의 역수인 IDF(Inverse Document Frequency) 구해서 TF와 IDF를 곱한 값인 TF-IDF를 가중치로 사용한다. 다음과 같은 텍스트로 구성된 3개의 문서가 ..

Cloud&BigData/BigData 2016. 11. 29. 08:08
이전 1 다음
이전 다음
반응형
공지사항
최근에 올라온 글
  • 질서너머 - 인생의 다음⋯
  • 질서너머 - 인생의 다음⋯
  • 질서너머 - 인생의 다음⋯
  • NFT 레볼루션 - 현실과 메⋯
최근에 달린 댓글
  • 좋은 글 잘읽고, 공감, 꾸욱~⋯
  • 모호한 부분을 전부 짚어주셨⋯
  • 정확도가 아닌 정밀도가 맞는⋯
  • 내용 중 잘못된 점이 있어 댓⋯
Total
3,215,425
Today
30
Yesterday
329
링크
  • 수식입력_latex
  • W3Schools Online Web Tutorials
  • 영어 학습 사이트
TAG
  • Hadoop
  • ms
  • 애플
  • 자바
  • 클라우드
  • Google
  • 책
  • fingra.ph
  • XML
  • 하둡
  • java
  • 디자인
  • r
  • 모바일
  • 아이폰
  • 분석
  • 안드로이드
  • 세미나
  • 마케팅
  • 프로젝트
  • 자바스크립트
  • 맥
  • mysql
  • 구글
  • 웹
  • SCORM
  • HTML
  • 도서
  • 빅데이터
  • 통계
more
«   2022/08   »
일 월 화 수 목 금 토
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
글 보관함
  • 2022/08 (5)
  • 2022/07 (1)
  • 2022/03 (1)
  • 2022/02 (2)
  • 2022/01 (1)

Blog is powered by Tistory / Designed by Tistory