gpt4 book ai didi

lucene - 如何从 Nutch 索引中读取内容?

转载 作者:行者123 更新时间:2023-12-01 06:41:03 26 4
gpt4 key购买 nike

我可以使用 Nutch 对网页进行抓取和索引,但我不知道如何读取索引并从中提取数据。

谁能向我介绍一些有用的工具来阅读索引?

我想添加一个中文语言分析器和一个IndexFilter插件,所以我想读取索引来验证我的插件。而且,我想对我使用 Java 抓取的数据进行一些处理。

最佳答案

使用 luke tool浏览 nutch 索引。转储索引选项可以为整个索引创建一个 xml 文件。如果一定要通过代码来做,那你就需要学习lucene了。

要阅读爬取的内容,请使用 nutch segment reader .

关于lucene - 如何从 Nutch 索引中读取内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10274242/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com