gpt4 book ai didi

web-crawler - 网络爬行/抓取 - 构建还是购买?

转载 作者:行者123 更新时间:2023-12-01 01:21:06 25 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

9年前关闭。




Improve this question




在我看来,在这个时间点,一个单一的工具会占据主导地位,因为这个过程似乎足够通用:指向一个起始 URL,与其表单和脚本交互,点击链接,下载数据。冲洗,重复。虽然我总是在构建临时应用程序以跳过箍以在我的硬盘驱动器上获取数百演出文档时获得某种满足感,但我想知道我是否只是在重新创建轮子。

我承认我还没有尝试过像 Automation Anywhere 这样的商业产品,但是由于我正在尝试全职做我真正喜欢做的事情,分析数据而不是检索数据,我希望群众的智慧这里可以为我指明明确讨论的方向。是否有太多的怪癖无法让单一工具几乎适用于所有情况?

让我澄清或复杂化这一点——我查看了许多浏览器“宏”类型的工具,如 iRobot、iOpus,发现它们很慢。对于非常大的文档集合,我想在集群/云上运行爬虫,所以我不确定它们在该环境中如何工作。对于我的用例,假设我想要

  • 检索大约一百万个文档
  • 来自不需要登录但大量使用javascript进行导航的站点。
  • 使用 Amazon 或 Azure 服务器来完成这项工作。

  • 一个例子可能是这个来自美国人口普查局的网站(有更有效的方法可以从他们那里获取数据,但网站的风格是数据量和导航的一个很好的例子):

    http://factfinder2.census.gov/faces/nav/jsf/pages/searchresults.xhtml?ref=addr&refresh=t

    最佳答案

    由于它在软件世界中往往是一个有点灰色的区域,因此此类工具的出现似乎很慢。

    在类似领域有大量工作正在进行,例如通过 headless 浏览器(如您提到的 iRobot 和 iOpus)进行自动化站点测试。我看到 Selenium 也提到了很多,还有一些使用 Apple Webkit 的有趣工具,比如 phantomjs ,但我无法评论他们的速度或“云能力”。

    最近获得广泛关注的一个有趣选项可能是 node.js javascript 运行时。我最后一次检查(6 个月前)有一些项目在使用 node 进行抓取,实现一个高度轻量级的 javascript 解释浏览器。 ...而且我相信云已经有了节点选项。

    但是,AFAIK,最快的爬虫仍然是那些不解释javascript的爬虫,并且依赖于开发人员对http请求的老式预分解。

    关于web-crawler - 网络爬行/抓取 - 构建还是购买?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9163696/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com