首页 > java > Lucene在web中搜索的功能

Lucene在web中搜索的功能

2007年7月30日 发表评论 阅读评论
I.          简化的查询分析器
目前LUCENE支持的语法:
A.        布尔操作符包括AND, OR, NOT, (+), (-)
  OR: 如果你要搜索含有字符 A 或者 B 的文档,那么就需要使用 OR 操作符。需要记住的是,如果你只是简单的用空格将两个关键词分割开,其实在搜索的时候搜索引擎会自动在两个关键词之间加上 OR 操作符。例如,“Java OR Lucene” “Java Lucene” 都是搜索含有 Java 或者含有 Lucene 的文档。
AND: 如果你需要搜索包含一个以上关键词的文档,那么就需要使用 AND 操作符。例如,“Java AND Lucene” 返回所有既包含 Java 又包含 Lucene 的文档。
NOT: Not 操作符使得包含紧跟在 NOT 后面的关键词的文档不会被返回。例如,如果你想搜索所有含有 Java 但不含有 Lucene 的文档,你可以使用查询语句 “Java NOT Lucene”。但是你不能只对一个搜索词使用这个操作符,比如,查询语句 “NOT Java” 不会返回任何结果。
加号(+: 这个操作符的作用和 AND 差不多,但它只对紧跟着它的一个搜索词起作用。例如,如果你想搜索一定包含 Java,但不一定包含 Lucene 的文档,就可以使用查询语句“+Java Lucene”
减号(: 这个操作符的功能和 NOT 一样,查询语句 “Java -Lucene” 返回所有包含 Java 但不包含 Lucene 的文档。
 
   如果索引的文档包含两个域,TitleContent,你就可以使用查询 “Title: Lucene AND Content: Java” 来返回所有在 Title 域上包含 Lucene 并且在 Content 域上包含 Java 的文档。
Lucene 支持两种通配符:问号(?)和星号(*)。你可以使用问号(?)来进行单字符的通配符查询,或者利用星号(*)进行多字符的通配符查询。例如,如果你想搜 tiny 或者 tony,你就可以使用查询语句 “t?ny”;如果你想查询 Teach, Teacher Teaching,你就可以使用查询语句 “Teach*”
 
默认的输入域查询:lucene指南
指定域查询: titlelucene指南     
复杂查询:titlelucene指南authorwenc -日期
必须包含作者为 wenc,标题中有 lucene指南,且不包含日期
 
II.       添加修改删除指定记录
Lucene提供了索引的扩展机制,因此索引的动态扩展应该是没有问题的,而指定记录的修改也似乎只能通过记录的删除,然后重新加入实现。如何删除指定的记录呢?删除的方法也很简单,只是需要在索引时根据数据源中的记录ID专门另建索引,然后利用IndexReader.delete(Termterm) 方法通过这个记录ID删除相应的Document
III.     根据某个字段值的排序功能
A.        Lucene中排序说明:
lucene缺省是按照自己的相关度算法(score)进行结果排序的,但能够根据其他字段进行结果排序是一个在LUCENE的开发邮件列表中经常提到的问题,很多原先基于数据库应用都需要除了基于匹配度(score)以外的排序功能。而从全文检索的原理我们可以了解到,任何不基于索引的搜索过程效率都会导致效率非常的低,如果基于其他字段的排序需要在搜索过程中访问存储字段,速度回大大降低,因此非常是不可取的。
有一个折中的解决方法:在搜索过程中能够影响排序结果的只有索引中已经存储的docIDscore2个参数,所以,基于score以外的排序,其实可以通过将数据源预先排好序,然后根据docID进行排序来实现。这样就避免了在LUCENE搜索结果外对结果再次进行排序和在搜索过程中访问不在索引中的某个字段值。
B.         默认按照日期排序倒排序;
IV.     高亮度显示搜索词;
搜索结果中关键词通过红色或者粗体字标记出来,为了能够更恰当的显示相关上下文的问题,高亮度是通过限制了一个扫描范围,然后根据一个分析器将指定的词流式的读取出来。
V.        结果集分页;
需要指定每页显示的数量,然后查询指定页码的内容;
VI.     结束。

分类: java 标签: 2,774 次阅读
原文链接:http://www.wenhq.com/article/view_99.html
欢迎转载,请注明出处:亲亲宝宝
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.