gpt4 book ai didi

ruby-on-rails - 在heroku上使用网络爬虫的经验

转载 作者:行者123 更新时间:2023-12-04 06:04:36 27 4
gpt4 key购买 nike

有没有人有使用诸如 Anemone 之类的 gem 编码网络爬虫并将它们部署到 heroku 供您自己使用的经验?这样一个连续运行的程序会违反任何 heroku 的 TOA/TOS 吗?

最佳答案

我没有在 Heroku 中使用网络爬虫的任何经验(我实际上有兴趣阅读相关内容!)。但这里是我的观点:

  • 这是它的 prohibited content .非法事件被禁止 (duh) 并且由于某些站点“禁止”网络爬虫和屏幕抓取工具(例如 IMDb),这可能被认为是非法的。但让我们暂时忽略这一点。
  • 这些是它的 prohibited actions .禁止以下行为:

    data mining any web property (including Heroku) to find email addresses or other user account information;

  • These是它的使用限制:
  • 网络带宽:2TB/月 - 软
  • 共享数据库处理:最大每秒 200 毫秒 CPU 时间 - 软
  • Dyno RAM 使用量:512MB - 硬
  • Slug 大小:200MB - 硬
  • 请求长度:30 秒 - 硬
  • 在其 TOS ,第 2.5 点,解释如下:

    Repeated exceeding of the hard or soft usage limits may lead to termination of your account.


  • 重点是我的。 Heroku 为每个应用程序提供 750 dyno 小时。只要你不滥用 Heroku 的服务,也不用它来收集个人信息,我相信你是清楚的。我建议:
  • 以某种方式限制您的网络爬虫。正如您应该限制 API 请求的速率一样,您应该有一个共同的礼貌,即限制爬虫的速度。
  • 密切关注您的测功时间。您可以这样做 here .
  • 关于ruby-on-rails - 在heroku上使用网络爬虫的经验,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16472083/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com