gpt4 book ai didi

nutch - 如何在nutch中获取抓取的页面内容和对应的URL?

转载 作者:行者123 更新时间:2023-12-01 02:24:20 24 4
gpt4 key购买 nike

我想通过文本文件中的 nutch 获取抓取的内容。我已经使用了 #readseg 命令,但输出没有成果。

是否有一些插件可以让 nutch 抓取并将 url 和内容存储在文本文件中。

最佳答案

使用 nutch 1,您可以执行以下操作:

./bin/nutch readseg -get out-crawl/segments/20160823085007/  "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

它仍然带有几行以在文件开头删除。

关于nutch - 如何在nutch中获取抓取的页面内容和对应的URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17802043/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com