gpt4 book ai didi

java - 根据 Nutch 中的条件获取后拒绝 url

转载 作者:行者123 更新时间:2023-11-30 10:25:08 25 4
gpt4 key购买 nike

我想知道是否可以根据条件(例如发布日期或时间)过滤获取的 url。我知道我们可以通过 regex-urlfilter 过滤 url 以进行抓取。

在我的例子中,我不想索引旧文档。因此,如果一份文件在 2017 年之前发布,则必须予以拒绝。是否需要任何日期过滤器插件或已经可用!

任何帮助将不胜感激。提前致谢。

最佳答案

如果您只想避免索引 旧文档,您可以编写自己的IndexingFilter 来检查您的条件并避免对文档进行索引。您没有提及您的 Nutch 版本,但假设您使用的是 v1 we have a new PR (它将为下一个版本做好准备)将使用 JEXL 表达式提供开箱即用的功能,以允许/阻止文档被索引。

如果您能捕获 PR 并对其进行测试并提供一些反馈,那就太棒了!

如果需要,您可以编写自己的自定义插件,并且可以检查 mimetype-filter 是否有与您想要的类似的东西(在这种情况下,我们应用基于 mimetype 的过滤)。

还有一个警告,目前 Nutch 使用的 fetchTimemodifiedTime 来自网络服务器在获取资源时发送的 header ,保持请记住,不应信任这些值(除非您 100% 确定),因为在大多数情况下您会得到错误的日期。 NUTCH-1414提出了一种更好的方法来从页面内容中提取发布日期,或者您可以实现自己的解析器。

请记住,使用这种方法您仍然会获取/解析旧文档,您只是跳过了索引步骤。

关于java - 根据 Nutch 中的条件获取后拒绝 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46357344/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com