- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这几天我一直在尝试解决这个问题,但一直没能实现。
有一个网页,我需要废弃其上的所有可用记录,我注意到,如果我使用 firebug 或浏览器的检查器修改分页链接,我可以获得我需要的所有记录,例如,这是原文链接:
<a href="javascript:gReport.navigate.paginate('paginator_min_row=16max_rows=15rows_fetched=15')">
如果我像这样修改该链接
<a href="javascript:gReport.navigate.paginate('paginator_min_row=1max_rows=5000rows_fetched=5000')">
然后单击浏览器上的分页按钮(与包含我刚刚更改的链接相同)我可以从该站点获取我需要的所有记录(大多数情况下“行”不会)不会超过 4000,我使用 5000 以防万一)
由于我每天都必须手动处理该文件,所以我想也许我可以使用 PhantomJS 自动化该过程,并在一次运行中获取整个页面,而无需查找该链接然后更改它,因此为了修改分页链接并获取所有记录我使用以下代码:
var page = require('webpage').create();
var fs = require('fs');
page.open('http://testingsite1.local', function () {
page.evaluate(function(){
$('a[href="javascript:gReport.navigate.paginate(\'paginator_min_row=16max_rows=15rows_fetched=15\')"]').first().attr('href', 'javascript:gReport.navigate.paginate(\'paginator_min_row=1max_rows=5000rows_fetched=5000\')').attr('id','clickit');
$('#clickit')[0].click();
});
page.render('test.png');
fs.write('test.html', page.content, 'w');
phantom.exit();
});
请注意,该网站上有两个分页链接,因为我使用 jquery 的“.first()”仅选择第一个。
此外,由于所需的链接没有任何标识符,我使用其自己的链接选择它,然后将其更改为我需要的内容,最后我向其添加“clickit”ID 以供以后调用。
现在,这是我的问题:
我不太确定为什么它不起作用,如果我运行代码,它仅获取第一页,在检查请求的页面源代码后,我确实看到 href 链接已更改为我想要的内容,但是它只是没有被调用,我对可能出现的问题有两种不同的理论
修改后的 href 没有被“点击”,因此页面没有更新
href 确实被点击,但由于页面需要几秒钟才能动态加载所有结果,我只能转储 Phantomjs 看到的第一页
大家对此有何看法?
<小时/>[2015 年 11 月 6 日更新]好的,@Artjomb 和 @pguardiario 提供的答案为我指明了一个新的方向:
遗憾的是,我只是缺乏正确使用 PhantomJS 的经验,其他几个示例表明我可以使用 CasperJS 实现我想要的效果,所以我尝试了一下,这就是我在几个小时后制作的结果
var utils = require('utils');
var fs = require('fs');
var url = 'http://testingsite1.local';
var casper = require('casper').create({
verbose: true,
logLevel: 'debug'
});
casper.on('error', function(msg, backtrace) {
this.echo("=========================");
this.echo("ERROR:");
this.echo(msg);
this.echo(backtrace);
this.echo("=========================");
});
casper.on("page.error", function(msg, backtrace) {
this.echo("=========================");
this.echo("PAGE.ERROR:");
this.echo(msg);
this.echo(backtrace);
this.echo("=========================");
});
casper.start(url, function() {
var url = this.evaluate(function() {
$('a[href="javascript:gReport.navigate.paginate(\'paginator_min_row=16max_rows=15rows_fetched=15\')"]').attr('href', 'javascript:gReport.navigate.paginate(\'paginator_min_row=1max_rows=5000rows_fetched=5000\')').attr('id', 'clicklink');
return gReport.navigate.paginate('paginator_min_row=1max_rows=5000rows_fetched=5000');
});
});
casper.then(function() {
this.waitForSelector('.nonexistant', function() {
// Nothing here
}, function() {
//page load failed after 5 seconds
this.capture('screen.png');
var html = this.getPageContent();
var f = fs.open('test.html', 'w');
f.write(html);
f.close();
}, 50000);
});
casper.run(function() {
this.exit();
});
请温柔一点,因为我知道这段代码很糟糕,我不是 Javascript 专家,事实上我对它知之甚少,我知道我应该等待一个元素出现,但它在我的测试中根本不起作用,因为我仍然收到未通过 AJAX 请求进行更新的页面。
最后我等了很长时间(50秒)AJAX请求才显示在页面上,然后转储HTML
哦!直接调用该函数效果非常好!
最佳答案
- The href does get clicked, but since the page takes a few seconds to load all results dynamically I only get to dump the first page Phantomjs gets to see
通过将渲染、写入和退出调用包装在 setTimeout
中并尝试不同的超时,可以轻松检查是否是这样:
page.open('http://testingsite1.local', function () {
page.evaluate(function(){
$('a[href="javascript:gReport.navigate.paginate(\'paginator_min_row=16max_rows=15rows_fetched=15\')"]').first().attr('href', 'javascript:gReport.navigate.paginate(\'paginator_min_row=1max_rows=5000rows_fetched=5000\')').attr('id','clickit');
$('#clickit')[0].click();
});
setTimeout(function(){
page.render('test.png');
fs.write('test.html', page.content, 'w');
phantom.exit();
}, 5000);
});
如果这确实只是超时问题,那么您应该使用 waitFor()
function等待特定条件,例如“加载所有元素”或“加载该类型的 x 个元素”。
- The modified href isn't getting "clicked" so the page isn't getting updated
这有点棘手。您可以监听 onConsoleMessage
、onError
、onResourceError
、onResourceTimeout
事件( Example )并查看是否有页面上有错误。其中一些错误可以通过 PhantomJS 中的操作来修复:Function.prototype.bind
not available或HTTPS site/resources cannot be loaded .
还有其他方法可以点击更可靠的内容,例如 this one .
关于javascript - 在 PhantomJS 中动态更改链接并单击它来抓取页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33536601/
我正在尝试开始使用 Mermaid CLI,但是当我尝试针对我的源文件运行它时,它说找不到 phantomjs。 (我运行的是 Win 7 64。) C:\Users\Chris\Documents>
我正在使用PhantomJS来调用网页,如下所示: page.open('http://example.com', function (s) { console.log(page.content)
如果有这样的功能,我需要更改Phantomjs自动清除缓存的默认时间。有什么想法吗? 最佳答案 应该是您正在寻找的功能: https://github.com/ariya/phantomjs/issu
我想从我的程序运行 PhantomJs 脚本,但由于脚本可能不是我写的,我需要确保 PhantomJs 在执行完成或因任何原因(例如无效语法、超时、 ETC)。到目前为止,我读到的所有内容都说你必须始
在 Package JSON 中,我尝试了许多不同版本的 karma-phantomjs-launcher、phantomjs,包括 phantomjs-prebuilt。 当前包 JSON “开发依
我的脚本有一些语法错误,但 PhantomJS 没有显示任何错误,而是没有显示任何内容。如果脚本有错误,为什么 Phantom JS 不显示解析错误? 在以下 PhantomJS 脚本(通过 Wind
我有一些需要填写的动态输入表单。问题是要填写表格,我需要访问另一个页面以获取取决于上一页输入的数据。因此,在我获得数据然后返回表单后,表单已经更改,因此我需要在获取数据时保持该表单打开。那么问题是如何
PhantomJS 在为我捕获网页到图像文件方面做得很好。我正在使用基于 rasterize.js 的脚本。 但是,对于某些固定大小的 Web 元素,我需要生成的图像与 Web 元素的大小相匹配。 例
我正在将 PhantomJS headless 浏览器集成到我的一个项目中(目前使用 1.6 版)。在大多数情况下,它在完成我需要完成的工作方面做得很好。但是,WebPage.open() 调用工作方
是否可以在page.evaluate中传递变量? function myFunction(webpage, arg1, arg2){ var page = require('webpage').cre
有没有办法始终如一地检测 PhantomJS/CasperJS?我一直在处理用它构建的一系列恶意垃圾邮件机器人,并且能够根据某些行为基本上阻止它们,但是我很好奇是否有一种坚如磐石的方法来了解 Casp
有没有办法拦截资源请求并直接从处理程序给出响应?像这样的事情: page.onRequest(function(request){ request.reply({data: 123}); });
phantomjs 有配置 loadImage, 但我想要更多, 如何控制phantomjs跳过下载某种资源, 比如css等... ===== 好消息:已添加此功能。 https://code.goo
我正在尝试在 PhantomJS (2.1.1) 的 page.evaulate() 调用中使用 WebSocket。当尝试连接到 WebSocket 服务器时,出现以下错误: 安全错误:DOM 异常
我正在使用 PhantomJS 1.8,但遇到了一个限制——您无法指定它用于磁盘缓存的目录。我将其添加到他们的问题跟踪系统中,但由于以前没有它,所以我不希望它很快添加。 因此,我正在寻找解决此限制的方
我想渲染一个仅在用户滚动页面时加载图像的页面。仅设置 page.scrollPosition 没有任何效果。我需要一些可以随时间改变滚动位置的东西。 最佳答案 不确定这是否是最好的方法,但它确实有效。
我正在尝试使用 PhantomJS 设置远程调试,但运气不佳。我按照 https://github.com/ariya/phantomjs/wiki/Troubleshooting 上的说明进行操作。
在 PhantomJS 中,webpage.open 会使用状态参数设置为“成功”或“失败”的回调。根据文档,如果没有发生网络错误,则“成功”,否则“失败”。有没有办法查看导致失败的底层网络错误? 当
有什么方法可以使用 phantomjs 请求资源并能够到达响应的主体吗? 最佳答案 更新:关于“获取并使用所有其他资源(如图像、CSS、字体等)做某事”的其他可能含义,我最近在博客上写了 how to
在运行 PhantomJS 提供的 rasterize.js 示例时,我发现我必须等待 20 秒或更长时间才能生成网页图像。 有没有可能在不消耗大量资源的情况下加快速度的方法?我基本上希望快速生成从加
我是一名优秀的程序员,十分优秀!