gpt4 book ai didi

language-agnostic - 可扩展/可定制的网络爬虫引擎/框架/库?

转载 作者:行者123 更新时间:2023-12-02 09:00:55 24 4
gpt4 key购买 nike

我有一个相对简单的案例。我基本上想存储有关各个网站之间链接的数据,并且不想限制域。我知道我可以使用一些http客户端库编写自己的爬虫,但我觉得我会做一些不必要的工作——确保页面不会被多次检查,弄清楚如何读取和使用robots.txt文件,也许甚至试图使其并发和分布式,而且我确信还有很多其他我还没有想到的事情。

所以我想要一个网络爬行框架来处理这些事情,同时允许我决定如何处理响应(在我的例子中,只是提取链接并存储它们)。大多数爬虫似乎假设您正在为搜索建立索引网页,但这不好,我需要一些可定制的东西。

我想将链接信息存储在 MongoDB 中数据库,所以我需要能够指定链接如何存储在框架中。尽管我已将这个问题标记为与语言无关,但这也意味着我必须将选择限制为 MongoDB 支持的语言之一(Python、Ruby、Perl、PHP、Java 和 C++)的框架,这是一个非常困难的问题。广网。我更喜欢动态语言,但我愿意接受任何建议。

我已经找到了Scrapy (看起来很整洁)和 JSpider (这看起来不错,但根据 121 页的用户手册,可能有点太“繁重”),但我想看看是否还有其他我错过的好选择。

最佳答案

我想您已经自己搜索过 Stack Overflow,因为在那些标记为 web-crawler 的问题中有很多非常相似的问题。 ?由于没有广泛使用以下内容,因此我不再详细说明,只是列出了一些我认为值得针对手头任务进行审查的内容:

  • Python
  • Ruby(根本没用过这些)
  • Perl
  • Java
    • Nutch :相当成熟的项目,文档齐全,专用可扩展性,基于 Apache Lucene ,非常成熟并且拥有强大的社区;高级集成方案似乎仍然存在问题,请参阅 this question .
    • Heritrix :非常成熟的项目,有据可查,专注的可扩展性,Internet Archive的 Backbone ;似乎对某些人来说可以更好地解决高级集成场景,再次参见 this question .

嗯,祝审核顺利;)

关于language-agnostic - 可扩展/可定制的网络爬虫引擎/框架/库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1305997/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com