gpt4 book ai didi

web-scraping - 是否存在任何开放的、可简单扩展的网络爬虫?

转载 作者:行者123 更新时间:2023-12-04 04:08:02 25 4
gpt4 key购买 nike

我正在寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣......或者扩展爬虫以满足它们的可能性:

  • 部分只是为了阅读几个网站的提要
  • 抓取这些网站的内容
  • 如果该站点有存档,我也想对其进行爬网和索引
  • 爬虫应该能够为我探索部分网络,并且应该能够决定哪些站点符合给定的标准
  • 如果找到可能符合我兴趣的东西,应该能够通知我
  • 爬虫不应该通过过多的请求攻击服务器来杀死服务器,爬行应该是聪明的
  • 爬虫应该能够抵御异常站点和服务器

  • 上面的这些事情可以一件一件地完成,而无需付出太多努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但到目前为止对该项目非常不确定。你有这方面的经验吗?你能推荐替代品吗?

    最佳答案

    当我为 Krugle 初创公司构建开源项目索引时,我广泛使用了 Nutch。很难定制,因为它是一个相当单一的设计。有插件架构,但是插件和系统之间的交互是棘手和脆弱的。

    由于这种经验,并且需要更灵活的东西,我开始了 Bixo 项目 - 一个网络挖掘工具包。 http://openbixo.org .

    它是否适合您取决于以下因素的权重:

  • 您需要多少灵活性 (+)
  • 它应该有多成熟 (-)
  • 是否需要扩展能力 (+)
  • 如果您熟悉 Java/Hadoop (+)
  • 关于web-scraping - 是否存在任何开放的、可简单扩展的网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2085213/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com