scraperwiki - scraperwiki 如何限制执行时间？-6ren

scraperwiki - scraperwiki 如何限制执行时间？

转载作者：行者123 更新时间：2023-12-03 21:03:00

25

4

scraperwiki 如何决定停止预定的运行？是基于实际执行时间还是CPU时间？或者也许是别的东西。

我抓取了一个网站，Mechanize 需要 30 秒来加载每个页面，但我使用很少的 CPU 来处理页面，所以我想知道服务器的缓慢是否是一个主要问题。

最佳答案

CPU 时间，而不是挂钟时间。它基于 Linux 函数 setrlimit。

每次刮刀运行的处理时间限制为大约 80 秒。之后，在 Python 和 Ruby 中，您将收到异常“超出 ScraperWiki CPU 时间”。在 PHP 中，它将结束“由 SIGXCPU 终止”。

在许多情况下，当您第一次抓取网站时，会发生这种情况，以 catch 现有数据的积压。处理它的最佳方法是使用 save_var 和 get_var 函数(见 http://scraperwiki.com/docs/python/python_help_documentation/)让你的刮板一次做一个块来记住你的位置。

这也使您可以更轻松地从其他解析错误中恢复。

关于scraperwiki - scraperwiki 如何限制执行时间？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6068809/

25

4

0

文章推荐： sql - 硬 tsql 问题 - 有多少行值是按顺序排列的

文章推荐： opengl-es - 在 OpenGL ES 中绘制一个球体

文章推荐： meteor - 如何根据集合的大小使模板有条件？

scraperwiki - scraperwiki 如何限制执行时间？
scraperwiki 如何决定停止预定的运行？是基于实际执行时间还是CPU时间？或者也许是别的东西。我抓取了一个网站，Mechanize 需要 30 秒来加载每个页面，但我使用很少的 CPU 来处
sql - ScraperWiki:如何使用自动增量键创建和添加记录
有人知道如何使用代理键创建表吗？寻找像autoincrement这样的东西，只是一个大整数自动将下一个最高的唯一编号添加为主键。需要知道如何创建表以及如何添加记录（最好通过scraperwik
python - ScraperWiki 数据存储区需要什么编码？
在 ScraperWiki 上写爬虫时，当我尝试保存 UTF8 编码的字符串时，我反复收到此消息: UnicodeDecodeError('utf8', ' the \xe2...', 49, 52,
Python scraper (Scraperwiki) 只得到一半的表
我正在学习如何在 Scraperwiki 中使用 Python 编写爬虫。到目前为止一切顺利，但我已经花了几天时间挠头解决一个我无法解决的问题。我正在尝试从表中获取所有链接。它有效，但是从从 001
python - Scraperwiki Python 循环问题
我正在使用 Python 通过 ScraperWiki 创建一个抓取器，但我得到的结果有问题。我的代码基于 basic example在 ScraperWiki 的文档上，一切看起来都非常相似，所以我
python - 我可以在本地安装 "scraperwiki"库吗？
scraperwiki python 模块是否可以安装在 Scraperwiki.com 网络界面之外？它看起来像 source可用，但未打包。最佳答案我们现在有一个可本地安装的版本 https:
python - 如何让 selenium 在 scraperwiki 上工作
我喜欢selenium，也喜欢scraperwiki，但不知怎的，我无法让它们一起正常工作。我尝试在 scraperwiki 上使用 selenium 以两种方式打开网站，这两种方法都是从教程中获得的
python - 使用 ScraperWiki 抓取 PDF 并收到未定义错误
我正在尝试使用 ScraperWiki 抓取此 PDF。当前代码给我一个名称“数据”未定义的错误，但我收到错误 elif int(el.attrib['left']) < 647: data['Nei
python - Scraperwiki + lxml。如何获取具有类的元素的子元素的 href 属性？
在 URL 中包含“alpha”的链接上有许多链接(hrefs)，我想从 20 个不同的页面收集这些链接并粘贴到通用 url 的末尾(倒数第二行)。 href 位于表中，td 的类是 mys-elas
asp.net - 为什么这个用于 ASPX 站点的 ScraperWiki 只返回相同的搜索结果页面？
我正在尝试使用 ScraperWiki 的工具抓取 ASP 驱动的站点。我想从 BBSmates.com 网站获取特定区号中的 BBS 列表。该站点一次显示 20 个 BBS 搜索结果，因此我必须提
screen-scraping - ScraperWiki 中的 "exit status 1"是什么意思，是不是失败了？
用户从爬虫运行中收到此消息。 Run succeeded: - ran 1 times, most recently for 2073 seconds (288
python - 从 scraperwiki 上的 beautifulsoup 向 sqlite 发送数据，但出现 KeyError : 'href'
我正在尝试使用 ScraperWiki 学习 Python 和 Beautiful Soup。我想要埃德蒙顿所有 kickstarter 项目的列表。我已经成功地抓取了我要查找的页面并提取了我想要的

首页

博学

6Ren·AI

商城

scraperwiki - scraperwiki 如何限制执行时间？