gpt4 book ai didi

open-source - 有人知道一个好的可扩展的开源网络爬虫吗?

转载 作者:行者123 更新时间:2023-12-03 16:49:25 24 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

8年前关闭。




Improve this question




爬虫需要有一个可扩展的架构来允许改变内部流程,比如实现新的步骤(预解析器、解析器等...)

我找到了 Heritrix 项目 ( http://crawler.archive.org/ )。

但是还有其他类似的好项目吗?

最佳答案

Nutch对于免费爬虫,这是您能做的最好的事情。它建立在 Lucene 的概念之上(以企业规模的方式)并由 Hadoop 支持后端使用 MapReduce (类似于谷歌)用于大规模数据查询。很棒的产品!我目前正在阅读有关 Hadoop 的所有内容(尚未发布)Hadoop in Action来自曼宁。如果你走这条路,我建议进入他们的技术审查团队,以获得该标题的早期副本!

这些都是基于Java的。如果你是一个 .net 人(像我一样!!)那么你可能对 Lucene.NET 更感兴趣, Nutch.NET , 和 Hadoop.NET它们都是逐类和 api 到 C# 的 api 端口。

关于open-source - 有人知道一个好的可扩展的开源网络爬虫吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1039775/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com