gpt4 book ai didi

java - 如何从我爬行后得到的 "segments"获取单独的html文件?

转载 作者:太空宇宙 更新时间:2023-11-04 03:59:00 25 4
gpt4 key购买 nike

我是 nuth 的新手。我使用过 nutch 来抓取一些域。现在我需要在单独的文件夹中获取与该域相对应的所有 html 文件。我已经从爬虫程序中获取了作为crawler/linkdb、crawler/crawldb 和crawler/segments 的输出。现在请帮助我继续通过命令行。

最佳答案

执行以下命令:

bin/nutch readseg -dump <segmentDir> <outputDir>

并将segmentDir和outputDir替换为您的段和输出目录(不带“<”)

关于java - 如何从我爬行后得到的 "segments"获取单独的html文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23718707/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com