java - Lucene搜寻器(需要建立Lucene索引)-6ren

java - Lucene搜寻器(需要建立Lucene索引)

转载作者：行者123 更新时间：2023-11-29 09:40:19

27

4

我正在寻找用Java（如果可能）或任何其他语言编写的Apache Lucene Web搜寻器。搜寻器必须使用lucene并创建有效的lucene索引和文档文件，因此，这就是例如消除胡扯的原因。

有人知道这样的网络爬虫存在吗？如果答案是肯定的，我可以在哪里找到它。
Tnx ...

最佳答案

您要问的是两个组成部分：

网络爬虫
基于Lucene的自动索引器

首先要说一个勇气：去那里，做到这一点。从我自己制作的角度出发，我将分别处理这两个组件，因为我不认为您可能无法真正理解其底层内容而使用Lucene来完成您所要求的操作。

网络爬虫

因此，您有一个要“抓取”以收集特定资源的网站/目录。假设是列出目录内容的任何通用Web服务器，制作Web爬网程序都很容易：只需将其指向目录的根目录并定义用于收集实际文件的规则，例如“以.txt结尾”。非常简单的东西，真的。

实际的实现可能是这样的：使用HttpClient获取实际的网页/目录列表，以您认为最有效的方式对其进行解析，例如使用XPath从获取的文档中选择所有链接或仅进行解析使用Java的Pattern和Matcher类的regex可以使用它。如果决定采用XPath路由，请考虑使用JDOM进行DOM处理，并使用Jaxen进行实际的XPath处理。

一旦获得了所需的实际资源（例如一堆文本文件），就需要确定数据类型，以便能够知道要建立索引的内容以及可以安全忽略的内容。为了简单起见，我假设这些文件是纯文本文件，没有任何字段或任何内容，并且不会对此进行更深入的介绍，但是如果您要存储多个字段，建议您使您的抓取工具使用< aa>（要点：将bean制成accessors and mutators，不允许访问者改变bean的内部状态，为bean创建immutable）将在其他组件中使用。

就API调用而言，您应该具有类似HttpCrawler#getDocuments(String url)的内容，该内容将返回List<YourBean>以与实际的索引器结合使用。

基于Lucene的自动索引器

除了使用Lucene进行copy constructor之外，例如建立目录并了解其线程模型（任何时候都只允许执行一次写操作，即使在更新索引时也可以存在多次读取），您当然想将bean馈入索引。我已经链接到的五分钟教程基本上可以做到这一点，请查看示例addDoc(..)方法，然后将String替换为YourBean。

请注意，Lucene IndexWriter确实有一些清理方法，这些清理方法很容易以受控方式执行，例如，仅在将一堆文档添加到索引之后才调用the obvious stuff对性能有好处，然后调用IndexWriter#commit()以确保索引不会随着时间的流逝而膨胀，这也是一个好主意。始终要记住也要关闭索引，以避免不必要的IndexWriter#optimize()抛出，就像Java中的所有IO一样，这种操作当然应该在LockObtainFailedException块中完成。

注意事项

您需要记住，Lucene索引的内容也会不时地到期，否则您将永远不会删除任何东西，并且它会变得肿，最终由于内部复杂性而死掉。
由于使用了线程模型，您很可能需要为索引本身创建一个单独的读/写抽象层，以确保在任何给定时间只能有一个实例可以写入索引。
由于源数据获取是通过HTTP完成的，因此您需要考虑数据的验证以及可能的错误情况（例如服务器不可用），以避免任何形式的格式错误和客户端挂断。
您需要知道要从索引中搜索的内容，才能决定要放入的内容。请注意，必须按日期建立索引，以便您将日期分割为年，月，日，时，分，秒，而不是毫秒值，因为从Lucene索引进行范围查询时，finally实际上会转换为，这意味着范围查询很快消失，因为有最多的查询子部分。

有了这些信息，我相信您可以在不到一天的时间内创建自己的特殊Lucene索引器，如果要进行严格的测试，则可以创建三个索引器。

关于java - Lucene搜寻器(需要建立Lucene索引)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1580882/

27

4

0

文章推荐： Java正则表达式匹配模式并提取它们

文章推荐： Java:将字符串解析为 double

文章推荐： java - 字符在 Java 中无法正确显示

文章推荐： java - 在运行时识别子类

excel - 建立 Excel 公式的间接函数
我正在尝试使用 Excel 中的间接函数来构建公式以在另一张纸上返回值。在工作表 A 单元格 D3 的值为 B 我想使用值 B 从名为 App Summary 的工作表中的单元格 B6 返回一个值。
c# - 建立 SIP 连接后如何流式传输音频
我目前正在使用 LumiSoft 的 SIP 堆栈，并且能够在我的 FreePBX 盒子上成功注册分机并调用另一个软电话。我现在需要做的就是通过调用流式传输 WAV 文件(或 RAW，或任何可行的文件
java - 建立 URL 连接会使我的应用程序崩溃
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (65 个回答) 已关闭 8 年前。我有一个安卓 Activ
javascript - 建立 websocket 连接时出错
我正在使用 ws npm 在服务器端，websocket 在客户端。从 node-js 运行此代码时它工作正常，但从浏览器运行它会出现以下错误: failed: Error in connectio
jquery - 阻止 fadeToggle() 建立
当我将鼠标悬停在想要淡入和淡出的内容上多次时，它就会不断重复。即使我停止悬停它。我怎样才能阻止这个？ $(".featured").hover(function(){ $(this).find
android 建立 mysql 连接并获取一些数据
我需要建立一个 mysql 连接并取回一些数据。我可以使用此代码在 Java 中执行此操作 try{ String username;
c++ - 建立 facebook 愚蠢
不能制造愚蠢。具有下一个文件夹结构: /flint/double-conversion/src /燧石/愚蠢/愚蠢/ 其中/flint/folly 包含自述文件和许可证。作为in the readme
c# - 建立。在构建之前创建 EmbeddedResource
我想在编译主单元之前在程序集中嵌入本地引用。但书面目标不起作用。 WithMetadataValue( 'CopyLocal', 'true' )->Met
c - 建立 TCP 套接字连接时出现问题
我不是软件专家，但我确实需要一些建议。我正在编写一个 C 程序(在下面剪切/粘贴)以通过 LAN(以太网)建立从我的 Mac Pro 到位于它旁边的基于 Windows XP 的测试仪器的 TCP
tcp - 建立 TCP 连接需要多少数据？
我正在构建一个应用程序，我的手机经常将数据发送到我的服务器。由于我将使用我的移动数据，我想知道建立(和拆除？)到我的服务器的 TCP 连接需要多少数据。最佳答案 TCP 三向握手 Device 1
php - 使用具有持久连接的先前 PDO 建立
我有一个带有登录表单的网站。当加载登录表单页面时，我创建一个新的 PDO 对象以查看连接是否正常工作。如果成功打开连接，查看者将看到一个登录表单。如果不成功，他们会收到一条消息，说明服务器已关闭。然
electron - 建立 Electron 应用程式后，产品名称未定义
构建我的Electron应用程序后，它将显示产品名称undefined。如何设置其他名称呢？当前是这样的: 最佳答案请尝试此操作。引用此链接 https://www.electronjs.org/
grails - 建立 war 后使用不同版本的两种mail.jar
我有一个项目在哪里使用这个 jar 。据我所知...发生 war 之后，文件夹WEB-INF/lib必须具有: mail-1.4.1.jar activation-1.1.jar mysql-con
c - 建立 Bison 语法时，终端上显示了太多无用的规则
代码： %{ #include #include #include #include "gener.h" #include "sym_tab.h" #include "scope.h" #inc
mysql - 从外部主机获取动态数据 - 建立 mysql 连接或通过curl获取数据？
我需要将侧边栏小部件集成到我的高流量页面(称为SiteA)中。该小部件应包含我的其他页面之一(称为 SiteB)的最新文章。在我看来，我有两种可能的解决方案。 SiteA 上的 cUrl 调用从 S
node.js - 建立 Cortana 拍照技能
我正在尝试建立 Cortana 技能，以便能够使用 Surface 相机拍照。怎么做？目前我的技能是能够使用bot框架和使用nodejs来回答问题。代码看起来像 bot.dialog('ScanCar
java - 建立 SSL 主机连接时无法使用签名证书验证 Cacerts
这个问题在这里已经有了答案: Resolving javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorExce
android - 建立 https 连接的 SSLProtocolException
当我与网络服务器建立 https 连接时出现 SSLProtocolException。我只在 Android 2.3 Gingebread 中有这个异常(exception)；相同的代码在所有其他
tcp - 检查 TCP 端口是否连接/建立？
我想做的是指定几个端口，然后检查它们是否已建立连接。我找到了以下脚本并运行了，但它只列出了 3 个端口，我不明白为什么。我验证了相关端口的事件规则(以及下面输出中未列出的许多其他端口)。 Set ob
mysql - 建立 N-M 关系的问题
使用 MySQL 我试图使用已经上传到数据库中的数据建立一对多关系。举个例子，假设我在一个表中有一个名字列表，我想将它们连接到一个他们去过的地方的列表。显然 1 个人可以去很多不同的地方，但我在设置时

首页

博学

6Ren·AI

商城

java - Lucene搜寻器(需要建立Lucene索引)