gpt4 book ai didi

hadoop - 需要像 Apache Nutch 这样没有 Hadoop 的开源爬虫

转载 作者:可可西里 更新时间:2023-11-01 14:54:08 26 4
gpt4 key购买 nike

我需要一个具有 url 规范器、url 过滤器、解析器、礼貌、排除某些 url 等功能的开源爬虫,但无论如何我所做的并不大。我需要保持更新的只有大约 500 台主机及其 1 级外链。我不喜欢通过实现 Nutch 拥有的所有这些优秀功能来重新发明轮子,同时我不喜欢 Hadoop 为这个小任务带来的开销。

有没有没有 Hadoop 的 Nutch 分支?或任何其他具有这些功能的简单爬虫?我不需要任何自适应获取调度、排名等。我只有一个主机列表,我应该使用一台机器获取它们的外链。

我更喜欢 Nutch 的一些分支,因为我有使用它的经验。

最佳答案

我认为您只需要 linux 命令 wget。例如,假设主机放在文件 hosts.txt 中。您可以使用以下命令下载它们:

for host in `cat hosts.txt` ; do wget -r -d 1 -H "$host"; done

-r表示递归,-d 1表示只下载1级,-H表示不限制域名。

您可以在 google 中搜索 wget recursive download,或运行 man wget 以获取更多信息。

关于hadoop - 需要像 Apache Nutch 这样没有 Hadoop 的开源爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22842728/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com