PhantomJS:抓取多个 URL 时的空白页面-6ren

PhantomJS:抓取多个 URL 时的空白页面

转载作者：行者123 更新时间：2023-12-04 05:40:03

24

4

我编写了一个 PhantomJs 脚本，通过递归链接对 page.open() 的调用来抓取多个 URL。 (下面的代码片段。)这最多适用于 3 或 4 个 URL，但是对于大量 URL，我只会得到空白页面。空白是指 document.URL 包含“about: blank”，而屏幕截图仅显示空白的白色背景。我还注意到，随着 phantomJs 继续处理大量 URL，它的内存使用量不断增加。是否有什么具体的我需要做的释放用于呈现前一页的任何内存？

其他人看到过这个问题吗？是否可以扩展 PhantomJs 来抓取更多的 URL(比如 100 个)？

谢谢
罗希特

用于抓取多个 URL 的递归代码片段:

srcProducts = [{'url':'http://...' }, { 'url': 'http://...' },...];
destProducts = [];
gRetries = 0;
process();

function process() {
  if (srcProducts.length == 0) {
    // Output to file
    phantom.exit();
  } else {
     product = srcProducts.pop();

     page = require('webpage').create();
     page.open(product['url'], onOpen);
  }
}

function onOpen(status) {
  // check status
  // scrape info into product

  destProducts.push(product);
  process();
}

最佳答案

有人很友好地在 google 群组上回答了这个问题。解决方案是在使用完页面对象后调用 page.release() 。

https://groups.google.com/forum/?fromgroups#!topic/phantomjs/lquzLFvZtrA

关于PhantomJS:抓取多个 URL 时的空白页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11369384/

24

4

0

文章推荐： objective-c - 限制动画球在屏幕上的位置

文章推荐： wordpress - 在 WordPress 3.4 中使用 POST/GET 参数时出现 404

文章推荐： php - 使用 Zend 框架将弹出窗口中的表单提交到原始窗口

文章推荐： r - R命令中分组数据的T检验

javascript - 只显示一个段落......不管是否有更多，空白，空白，类......只有并且只有CSS
我正在寻找 css 属性以隐藏带或不带 css 类的段落，如果它包含空格 ( ) 或空白，但我想至少保留一个带或不带的段落，如果有更多的话。隐藏段落，如果它是空白的或包含 white-space(
ruby 空白
在 ruby 中对空白有不同的敏感度/设置吗？我有一个 RoR 项目，其中一个事件记录调用有很多组件: max_stuff = FooSummary.select("max(stuff)
数字后和文本前的 LaTeX 空白
如何在脚注中的数字后留空？一般来说，对于所有脚注! 例子: 好 : 1 Hello World 坏:1Hello World 最佳答案正确答案是不要重新定义\thefootnote ，因为这会在脚
javascript - 数组未设置回 [] (空白)
我有这段代码，每次第一个 for 循环再次开始时，我希望它将数组重置为空白，因为它正在使用新用户，但我得到的输出包含一个数组中的所有值。 var items = []; for (var i
php - Cakephp生成xml错误-空白
我试图在CakePHP中生成一个动态xml文档，以输出到浏览器。这是我的 Controller 代码: Configure::write ('debug', 0); $this->layout =
Ansible strip 空白
当我尝试在 nxos 设备上运行某些命令时，输出末尾有一个空格。我必须将输出与现有变量列表进行比较。末尾的空格导致比较错误。如何在字符串列表中使用 .strip() 函数？ - name: Curre
elasticsearch搜索查询返回 "hits"空白
我对 Elasticsearch 相当陌生，我一直在尝试对我的数据进行搜索，并且总是让点击部分为空。即使在数据上传和索引之后也会发生这种情况。我的映射如下: { "mappings":{
firefox - Firefox插件更改关于:空白
我想将about:blank页面更改为firefox插件首页页面的url。如何更改默认的新标签页网址或可以为新标签页提供默认网址？我正在使用Firefox附加SDK。最佳答案您可以结合使用Ta
R - 根据同一行不同列的值填充缺失值(空白)
我正在使用 R 并具有以下数据框示例，其中所有变量都是因子: first second third social birth control high
jquery 空白/灰色显示对话框的页面
如何清空显示对话框的页面。下面是我的代码HTML: .ui-dialog, .ui-dialog-content { border:1px solid #cde68c; border-botto
c - 尝试输出此函数时我什么也没得到\空白
更新“他的问题是要求我只运行一次 str ，他们已经告诉我该函数只需要一个参数)” 我试图返回第一个不重复的字符，例如:“blazqnqbla”->第一个不重复的字符是“z”，因此函数需要返回z。现在
php - 无法检查登录错误(空白)
我的登录验证有问题。问题是当我尝试使用管理员登录时，页面停止在 checklogin.php 上并且不会告诉它是否成功。这是我的代码。索引.html Aplik
MYSQL 查询以检查值是否为空/空白
我的查询是这样的 SELECT Distinct tm.teamid,tm.Team_Name,CONCAT_WS(' ',tu.FirstName+' '+tu.LastName) as Leade
javascript - 查询字符串错误。空白
我正在创建指向页面的超链接 url 由用户输入决定，因此由查询字符串决定 ; 问题是变量状态由两个或多个单词组成。因此，当我尝试单击证明表单中输入的超链接时，仅获取状态变量的第一个单词。浏览器将另一个
jquery scrolltofixed 空白
该问题在每个浏览器中的表现都不同，例如在 Firefox 中大约一个空格如果您再次滚动到顶部，则会出现具有相同高度的滚动框。在 chrome 中，滚动时框会变得狭窄等等...... 使用的调用是:
菜单之间的 CSS 空白
我对菜单栏文字之间的 CSS 空白有疑问。我尝试了很多方法，但仍然无法解决。有人可以帮我吗？菜单问题图片如下: http://imageshack.us/photo/my-images/201/44
html - 空白/有文本时插入符号在文本区域中的不同位置
我对有疑问.其中的插入符根据是否为空具有不同的垂直位置: 我的代码: textarea { padding: 0 5px; border: none; outline: n
html - 输入代码中的返回行导致输出中元素之间的间隙/空白？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Ignore whitespace in HTML 我想在网页上将图片并排放置。这是我的 HTML:
html - 检查元素不工作/空白
每当我尝试检查元素时，什么都没有出现。我在使用 Chrome。我明白了 Elements | Network | Sources | Timeline | Profiles | Resources |
css - 是什么导致了这个双滚动条/空白？
我在使用 Chrome、Firefox 和 IE 时遇到了一个奇怪的问题。我正在为我的投资组合网站/博客构建一个 WordPress 主题，一切都很好，直到今天，当我在 chrome 中查看该网站时，

首页

博学

6Ren·AI

商城

PhantomJS:抓取多个 URL 时的空白页面