gpt4 book ai didi

java - 清空 Nutch 抓取列表

转载 作者:行者123 更新时间:2023-12-01 15:58:37 27 4
gpt4 key购买 nike

我正在尝试在 Eclipse 中使用 Nutch 运行爬网。

我正在使用一个名为 urls 的文件,它包含

http://www.google.com/

但是,当我运行该项目时,Generator 类告诉我:

“已选择 0 条记录用于获取,正在退出”

如何解决这个问题?

我已遵循这些文档:

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

任何帮助将不胜感激。

最佳答案

我最近遇到了这个问题,发现大多数回复都涉及 (regex|crawl)-urlfiters.txt。另一件要检查的事情是你的“-topN”设置。这需要足够大,以便生成器能够通过所有过滤器。

我希望这会有所帮助。

关于java - 清空 Nutch 抓取列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4479846/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com