티스토리 뷰
HTML 태그를 제거하고 순수하게 텍스트만 가져오는 부분이 필요해서 관련 소스를 정리해봤습니다.
정규식에 대해서는 개념은 들어보셨을 겁니다.
나중에 기회가 되면 정규식에 대해서도 한번 정리해 보도록 하구요..
오늘은 간단하게 원하는 기능을 구현한 소스를 보여드리도록 하겠습니다.
정규식을 6개 정도 적용하고 있는 간단한 소스입니다.
각각 HTML의 스크립트 태그와 내용, 스타일 및 내용, 태그들, 엔터티, 공백문자들을 제거하는 정규식 표현입니다.
관심있는 분들은 한번씩 테스트 해보시기 바랍니다. ^^
예전에 URL을 지정하면 해당 텍스트를 분석해서 자동으로 태깅 정보를 제공하는 것을 개발할 때 사용한 부분입니다. ~
'프로그래밍 > Java' 카테고리의 다른 글
자바 스크립트의 원격 서버 접근 및 onLoad 이벤트 처리 (0) | 2011.10.11 |
---|---|
자바스크립트에서 form의 데이터를 문자열로 가져오기 (2) | 2011.10.10 |
[Java] URLConnection으로 가져올 때 UTF8과 EUC-KR 구분하기 (0) | 2011.09.27 |
이클립스(Eclipse) 단축키를 알아두자~~ (0) | 2011.09.23 |
Log4J에 대하여 (0) | 2011.09.07 |
댓글
Blog is powered by
Tistory / Designed by
Tistory