gpt4 book ai didi

hadoop - 爬取完成后,我们在哪里可以通过nutch的网络爬取找到数据?

转载 作者:行者123 更新时间:2023-12-02 20:39:06 26 4
gpt4 key购买 nike

我已经通过 apache nutch 抓取了网站。我通过顺序注入(inject)、分段、获取、解析、更新完成了这个过程。提取的数据存在于哪个目录中?当我在所有 nutch 目录(如 crawldb、segments)中进行搜索时,它以不可读的格式显示。搜索后,我给出了转储命令,以便我获得 html 格式。这是提取数据的正确方法吗?
谢谢你。

最佳答案

您可以使用 Solr 来索引这些数据。通过这种方式,您可以通过提供查询来过滤数据

http://lucene.apache.org/solr/

关于hadoop - 爬取完成后,我们在哪里可以通过nutch的网络爬取找到数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50087333/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com