- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找用Java(如果可能)或任何其他语言编写的Apache Lucene Web搜寻器。搜寻器必须使用lucene并创建有效的lucene索引和文档文件,因此,这就是例如消除胡扯的原因。
有人知道这样的网络爬虫存在吗?如果答案是肯定的,我可以在哪里找到它。
Tnx ...
最佳答案
您要问的是两个组成部分:
网络爬虫
基于Lucene的自动索引器
首先要说一个勇气:去那里,做到这一点。从我自己制作的角度出发,我将分别处理这两个组件,因为我不认为您可能无法真正理解其底层内容而使用Lucene来完成您所要求的操作。
网络爬虫
因此,您有一个要“抓取”以收集特定资源的网站/目录。假设是列出目录内容的任何通用Web服务器,制作Web爬网程序都很容易:只需将其指向目录的根目录并定义用于收集实际文件的规则,例如“以.txt结尾”。非常简单的东西,真的。
实际的实现可能是这样的:使用HttpClient获取实际的网页/目录列表,以您认为最有效的方式对其进行解析,例如使用XPath从获取的文档中选择所有链接或仅进行解析使用Java的Pattern和Matcher类的regex可以使用它。如果决定采用XPath路由,请考虑使用JDOM进行DOM处理,并使用Jaxen进行实际的XPath处理。
一旦获得了所需的实际资源(例如一堆文本文件),就需要确定数据类型,以便能够知道要建立索引的内容以及可以安全忽略的内容。为了简单起见,我假设这些文件是纯文本文件,没有任何字段或任何内容,并且不会对此进行更深入的介绍,但是如果您要存储多个字段,建议您使您的抓取工具使用< aa>(要点:将bean制成accessors and mutators,不允许访问者改变bean的内部状态,为bean创建immutable)将在其他组件中使用。
就API调用而言,您应该具有类似HttpCrawler#getDocuments(String url)
的内容,该内容将返回List<YourBean>
以与实际的索引器结合使用。
基于Lucene的自动索引器
除了使用Lucene进行copy constructor之外,例如建立目录并了解其线程模型(任何时候都只允许执行一次写操作,即使在更新索引时也可以存在多次读取),您当然想将bean馈入索引。我已经链接到的五分钟教程基本上可以做到这一点,请查看示例addDoc(..)
方法,然后将String替换为YourBean
。
请注意,Lucene IndexWriter确实有一些清理方法,这些清理方法很容易以受控方式执行,例如,仅在将一堆文档添加到索引之后才调用the obvious stuff对性能有好处,然后调用IndexWriter#commit()
以确保索引不会随着时间的流逝而膨胀,这也是一个好主意。始终要记住也要关闭索引,以避免不必要的IndexWriter#optimize()
抛出,就像Java中的所有IO一样,这种操作当然应该在LockObtainFailedException
块中完成。
注意事项
您需要记住,Lucene索引的内容也会不时地到期,否则您将永远不会删除任何东西,并且它会变得肿,最终由于内部复杂性而死掉。
由于使用了线程模型,您很可能需要为索引本身创建一个单独的读/写抽象层,以确保在任何给定时间只能有一个实例可以写入索引。
由于源数据获取是通过HTTP完成的,因此您需要考虑数据的验证以及可能的错误情况(例如服务器不可用),以避免任何形式的格式错误和客户端挂断。
您需要知道要从索引中搜索的内容,才能决定要放入的内容。请注意,必须按日期建立索引,以便您将日期分割为年,月,日,时,分,秒,而不是毫秒值,因为从Lucene索引进行范围查询时,finally
实际上会转换为
有了这些信息,我相信您可以在不到一天的时间内创建自己的特殊Lucene索引器,如果要进行严格的测试,则可以创建三个索引器。
关于java - Lucene搜寻器(需要建立Lucene索引),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1580882/
我正在尝试使用 Excel 中的间接函数来构建公式以在另一张纸上返回值。 在工作表 A 单元格 D3 的值为 B 我想使用值 B 从名为 App Summary 的工作表中的单元格 B6 返回一个值。
我目前正在使用 LumiSoft 的 SIP 堆栈,并且能够在我的 FreePBX 盒子上成功注册分机并调用另一个软电话。我现在需要做的就是通过调用流式传输 WAV 文件(或 RAW,或任何可行的文件
这个问题已经有答案了: How can I fix 'android.os.NetworkOnMainThreadException'? (65 个回答) 已关闭 8 年前。 我有一个安卓 Activ
我正在使用 ws npm 在服务器端,websocket 在客户端。 从 node-js 运行此代码时它工作正常,但从浏览器运行它会出现以下错误: failed: Error in connectio
当我将鼠标悬停在想要淡入和淡出的内容上多次时,它就会不断重复。即使我停止悬停它。我怎样才能阻止这个? $(".featured").hover(function(){ $(this).find
我需要建立一个 mysql 连接并取回一些数据。我可以使用此代码在 Java 中执行此操作 try{ String username;
不能制造愚蠢。具有下一个文件夹结构: /flint/double-conversion/src /燧石/愚蠢/愚蠢/ 其中/flint/folly 包含自述文件和许可证。作为in the readme
我想在编译主单元之前在程序集中嵌入本地引用。但书面目标不起作用。 WithMetadataValue( 'CopyLocal', 'true' )->Met
我不是软件专家,但我确实需要一些建议。 我正在编写一个 C 程序(在下面剪切/粘贴)以通过 LAN(以太网)建立从我的 Mac Pro 到位于它旁边的基于 Windows XP 的测试仪器的 TCP
我正在构建一个应用程序,我的手机经常将数据发送到我的服务器。由于我将使用我的移动数据,我想知道建立(和拆除?)到我的服务器的 TCP 连接需要多少数据。 最佳答案 TCP 三向握手 Device 1
我有一个带有登录表单的网站。当加载登录表单页面时,我创建一个新的 PDO 对象以查看连接是否正常工作。如果成功打开连接,查看者将看到一个登录表单。如果不成功,他们会收到一条消息,说明服务器已关闭。 然
构建我的Electron应用程序后,它将显示产品名称undefined。如何设置其他名称呢? 当前是这样的: 最佳答案 请尝试此操作。引用此链接 https://www.electronjs.org/
我有一个项目在哪里使用这个 jar 。 据我所知...发生 war 之后,文件夹WEB-INF/lib必须具有: mail-1.4.1.jar activation-1.1.jar mysql-con
代码: %{ #include #include #include #include "gener.h" #include "sym_tab.h" #include "scope.h" #inc
我需要将侧边栏小部件集成到我的高流量页面(称为SiteA)中。该小部件应包含我的其他页面之一(称为 SiteB)的最新文章。 在我看来,我有两种可能的解决方案。 SiteA 上的 cUrl 调用从 S
我正在尝试建立 Cortana 技能,以便能够使用 Surface 相机拍照。怎么做?目前我的技能是能够使用bot框架和使用nodejs来回答问题。代码看起来像 bot.dialog('ScanCar
这个问题在这里已经有了答案: Resolving javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorExce
当我与网络服务器建立 https 连接时出现 SSLProtocolException。我只在 Android 2.3 Gingebread 中有这个异常(exception);相同的代码在所有其他
我想做的是指定几个端口,然后检查它们是否已建立连接。我找到了以下脚本并运行了,但它只列出了 3 个端口,我不明白为什么。我验证了相关端口的事件规则(以及下面输出中未列出的许多其他端口)。 Set ob
使用 MySQL 我试图使用已经上传到数据库中的数据建立一对多关系。举个例子,假设我在一个表中有一个名字列表,我想将它们连接到一个他们去过的地方的列表。显然 1 个人可以去很多不同的地方,但我在设置时
我是一名优秀的程序员,十分优秀!