gpt4 book ai didi

scraperwiki - scraperwiki 如何限制执行时间?

转载 作者:行者123 更新时间:2023-12-03 21:03:00 25 4
gpt4 key购买 nike

scraperwiki 如何决定停止预定的运行?是基于实际执行时间还是CPU时间?或者也许是别的东西。

我抓取了一个网站,Mechanize 需要 30 秒来加载每个页面,但我使用很少的 CPU 来处理页面,所以我想知道服务器的缓慢是否是一个主要问题。

最佳答案

CPU 时间,而不是挂钟时间。它基于 Linux 函数 setrlimit。

每次刮刀运行的处理时间限制为大约 80 秒。之后,在 Python 和 Ruby 中,您将收到异常“超出 ScraperWiki CPU 时间”。在 PHP 中,它将结束“由 SIGXCPU 终止”。

在许多情况下,当您第一次抓取网站时,会发生这种情况,以 catch 现有数据的积压。处理它的最佳方法是使用 save_var 和 get_var 函数(见 http://scraperwiki.com/docs/python/python_help_documentation/)让你的刮板一次做一个块来记住你的位置。

这也使您可以更轻松地从其他解析错误中恢复。

关于scraperwiki - scraperwiki 如何限制执行时间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6068809/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com