티스토리 뷰

반응형
루씬 인 액션 - 10점
에릭 해쳐.오티스 고스포드네티츠 지음, 이문호 외 옮김/에이콘출판

프로젝트를 수행할 때마다 항상 고민이 되는 것이 바로 검색엔진이었던 것 같습니다.
상업용 검색엔진을 이용하면 비용이 발생하고, 그렇다고 DB 검색으로만 붙여놓기에는 늘어나는 정보의 양이 부담이 되었죠.. 아마 그때 루씬이라는 오픈소스를 알고 있었다면 한번쯤 적용해 보자고 했었을 수도 있었을 것 같네요. ^^

물론 이 책에도 잘 나와 있지만 한글에 대한 분석기가 완벽한 것이 없어서 실제 적용에는 많은 한계가 있을 겁니다. 하지만 많은 개발자들이 관심을 가진다면 이것도 머지 않아 해결되지 않을까 하네요~

책 자체로 보면 번역서라고 믿기지 않을 정도로 매끄럽게 되어 있습니다.
검색엔진에 대한 "색인", "쿼리(질의어)", "분석"등에 대한 설명이 잘 되어 있어, 저처럼 검색엔진에 대해 어렴풋이 알고있던 초보들에게도 매우 도움이 될 거예요.

1장에서 6장까지는 루씬의 기본적인 내용을 다루고 있습니다.
기본적으로 검색을 하기 위한 원문의 색인과
검색을 위한 쿼리(질의어) 파싱..
색인과 쿼리 파싱에 적용할 분석기들..
고급기능으로서 검색결과 정렬이나 필터들에 대한 설명이 나와 있으니 참고하시기 바랍니다.

소스와 함께 설명이 되어 있으니 자바 언어에 대한 기본적인 지식만 있다면 충분히 이해할 수 있을 겁니다.

7장은 재미있는 내용입니다. 루씬은 기본적으로 텍스트 문서만 색인하고 검색할 수 있는데요.
실제 검색에서는 PDF, HTML, MS-Word등 다양한 문서를 다룰 수 있어야 합니다.
7장에서 이런 문서들을 색인할 수 있는 방법에 대해 설명하고 있습니다.

꼭 검색엔진이 아니더라도 이런 부분은 다른 데서 유용하게 활용할 수 있을 것 같네요~

이어서 루씬의 확장기능이나 다른 언어로 포팅한 것들을 설명하고,
루씬의 적용 사례에 대해 이야기 하고 있습니다.

이 번역서에는 부록으로 루씬 한글 분석기에 대한 예제가 들어있습니다.
물론 한글 형태소분석 방식이 아니어서 약간 부족한 면이 있지만
이걸 확장해서 사용하려는 개발자 분도 있을 것이구..
기존의 한글 형태소분석기를 루씬에 적용하려는 개발자도 있을 겁니다.
(혹, 좋은 거 알고 계시면 추천좀.. ^^)

어쨌든 인터넷에서 성공한 기업들은 모두 검색엔진을 가지고 있습니다.
초기의 야후가 그랬고.. 네이버, 다음, 구글이 그랬죠..
인터넷 솔루션을 생각한다면 이런 검색엔진과 친해져야 하지 않을까 하네요~
루씬 인 액션을 통해서 이런 검색엔진을 조금 더 이해할 수 있는 계기가 될 것이라고 생각하네요^^
반응형
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함