gpt4 book ai didi

java - Lucene搜寻器(需要建立Lucene索引)

转载 作者:行者123 更新时间:2023-11-29 09:40:19 27 4
gpt4 key购买 nike

我正在寻找用Java(如果可能)或任何其他语言编写的Apache Lucene Web搜寻器。搜寻器必须使用lucene并创建有效的lucene索引和文档文件,因此,这就是例如消除胡扯的原因。

有人知道这样的网络爬虫存在吗?如果答案是肯定的,我可以在哪里找到它。
Tnx ...

最佳答案

您要问的是两个组成部分:


网络爬虫
基于Lucene的自动索引器


首先要说一个勇气:去那里,做到这一点。从我自己制作的角度出发,我将分别处理这两个组件,因为我不认为您可能无法真正理解其底层内容而使用Lucene来完成您所要求的操作。

网络爬虫

因此,您有一个要“抓取”以收集特定资源的网站/目录。假设是列出目录内容的任何通用Web服务器,制作Web爬网程序都很容易:只需将其指向目录的根目录并定义用于收集实际文件的规则,例如“以.txt结尾”。非常简单的东西,真的。

实际的实现可能是这样的:使用HttpClient获取实际的网页/目录列表,以您认为最有效的方式对其进行解析,例如使用XPath从获取的文档中选择所有链接或仅进行解析使用Java的PatternMatcher类的regex可以使用它。如果决定采用XPath路由,请考虑使用JDOM进行DOM处理,并使用Jaxen进行实际的XPath处理。

一旦获得了所需的实际资源(例如一堆文本文件),就需要确定数据类型,以便能够知道要建立索引的内容以及可以安全忽略的内容。为了简单起见,我假设这些文件是纯文本文件,没有任何字段或任何内容,并且不会对此进行更深入的介绍,但是如果您要存储多个字段,建议您使您的抓取工具使用< aa>(要点:将bean制成accessors and mutators,不允许访问者改变bean的内部状态,为bean创建immutable)将在其他组件中使用。

就API调用而言,您应该具有类似HttpCrawler#getDocuments(String url)的内容,该内容将返回List<YourBean>以与实际的索引器结合使用。

基于Lucene的自动索引器

除了使用Lucene进行copy constructor之外,例如建立目录并了解其线程模型(任何时候都只允许执行一次写操作,即使在更新索引时也可以存在多次读取),您当然想将bean馈入索引。我已经链接到的五分钟教程基本上可以做到这一点,请查看示例addDoc(..)方法,然后将String替换为YourBean

请注意,Lucene IndexWriter确实有一些清理方法,这些清理方法很容易以受控方式执行,例如,仅在将一堆文档添加到索引之后才调用the obvious stuff对性能有好处,然后调用IndexWriter#commit()以确保索引不会随着时间的流逝而膨胀,这也是一个好主意。始终要记住也要关闭索引,以避免不必要的IndexWriter#optimize()抛出,就像Java中的所有IO一样,这种操作当然应该在LockObtainFailedException块中完成。

注意事项


您需要记住,Lucene索引的内容也会不时地到期,否则您将永远不会删除任何东西,并且它会变得肿,最终由于内部复杂性而死掉。
由于使用了线程模型,您很可能需要为索引本身创建一个单独的读/写抽象层,以确保在任何给定时间只能有一个实例可以写入索引。
由于源数据获取是通过HTTP完成的,因此您需要考虑数据的验证以及可能的错误情况(例如服务器不可用),以避免任何形式的格式错误和客户端挂断。
您需要知道要从索引中搜索的内容,才能决定要放入的内容。请注意,必须按日期建立索引,以便您将日期分割为年,月,日,时,分,秒,而不是毫秒值,因为从Lucene索引进行范围查询时,finally实际上会转换为 ,这意味着范围查询很快消失,因为有最多的查询子部分。


有了这些信息,我相信您可以在不到一天的时间内创建自己的特殊Lucene索引器,如果要进行严格的测试,则可以创建三个索引器。

关于java - Lucene搜寻器(需要建立Lucene索引),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1580882/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com