gpt4 book ai didi

javascript - 在 PhantomJS 中动态更改链接并单击它来抓取页面

转载 作者:行者123 更新时间:2023-11-28 06:44:08 33 4
gpt4 key购买 nike

这几天我一直在尝试解决这个问题,但一直没能实现。

有一个网页,我需要废弃其上的所有可用记录,我注意到,如果我使用 firebug 或浏览器的检查器修改分页链接,我可以获得我需要的所有记录,例如,这是原文链接:

<a href="javascript:gReport.navigate.paginate('paginator_min_row=16max_rows=15rows_fetched=15')">

如果我像这样修改该链接

<a href="javascript:gReport.navigate.paginate('paginator_min_row=1max_rows=5000rows_fetched=5000')">

然后单击浏览器上的分页按钮(与包含我刚刚更改的链接相同)我可以从该站点获取我需要的所有记录(大多数情况下“行”不会)不会超过 4000,我使用 5000 以防万一)

由于我每天都必须手动处理该文件,所以我想也许我可以使用 PhantomJS 自动化该过程,并在一次运行中获取整个页面,而无需查找该链接然后更改它,因此为了修改分页链接并获取所有记录我使用以下代码:

var page = require('webpage').create();
var fs = require('fs');
page.open('http://testingsite1.local', function () {
page.evaluate(function(){
$('a[href="javascript:gReport.navigate.paginate(\'paginator_min_row=16max_rows=15rows_fetched=15\')"]').first().attr('href', 'javascript:gReport.navigate.paginate(\'paginator_min_row=1max_rows=5000rows_fetched=5000\')').attr('id','clickit');
$('#clickit')[0].click();
});

page.render('test.png');
fs.write('test.html', page.content, 'w');
phantom.exit();
});

请注意,该网站上有两个分页链接,因为我使用 jquery 的“.first()”仅选择第一个。

此外,由于所需的链接没有任何标识符,我使用其自己的链接选择它,然后将其更改为我需要的内容,最后我向其添加“clickit”ID 以供以后调用。

现在,这是我的问题:

我不太确定为什么它不起作用,如果我运行代码,它仅获取第一页,在检查请求的页面源代码后,我确实看到 href 链接已更改为我想要的内容,但是它只是没有被调用,我对可能出现的问题有两种不同的理论

  1. 修改后的 href 没有被“点击”,因此页面没有更新

  2. href 确实被点击,但由于页面需要几秒钟才能动态加载所有结果,我只能转储 Phantomjs 看到的第一页

大家对此有何看法?

<小时/>

[2015 年 11 月 6 日更新]好的,@Artjomb 和 @pguardiario 提供的答案为我指明了一个新的方向:

  1. 我需要更多有关正在发生的事情的调试信息
  2. 我需要直接调用gReport.navigate.paginate函数

遗憾的是,我只是缺乏正确使用 PhantomJS 的经验,其他几个示例表明我可以使用 CasperJS 实现我想要的效果,所以我尝试了一下,这就是我在几个小时后制作的结果

var utils = require('utils');
var fs = require('fs');
var url = 'http://testingsite1.local';

var casper = require('casper').create({
verbose: true,
logLevel: 'debug'
});

casper.on('error', function(msg, backtrace) {
this.echo("=========================");
this.echo("ERROR:");
this.echo(msg);
this.echo(backtrace);
this.echo("=========================");
});

casper.on("page.error", function(msg, backtrace) {
this.echo("=========================");
this.echo("PAGE.ERROR:");
this.echo(msg);
this.echo(backtrace);
this.echo("=========================");
});

casper.start(url, function() {
var url = this.evaluate(function() {
$('a[href="javascript:gReport.navigate.paginate(\'paginator_min_row=16max_rows=15rows_fetched=15\')"]').attr('href', 'javascript:gReport.navigate.paginate(\'paginator_min_row=1max_rows=5000rows_fetched=5000\')').attr('id', 'clicklink');
return gReport.navigate.paginate('paginator_min_row=1max_rows=5000rows_fetched=5000');
});
});

casper.then(function() {
this.waitForSelector('.nonexistant', function() {
// Nothing here
}, function() {
//page load failed after 5 seconds
this.capture('screen.png');
var html = this.getPageContent();
var f = fs.open('test.html', 'w');
f.write(html);
f.close();
}, 50000);
});

casper.run(function() {
this.exit();
});

请温柔一点,因为我知道这段代码很糟糕,我不是 Javascript 专家,事实上我对它知之甚少,我知道我应该等待一个元素出现,但它在我的测试中根本不起作用,因为我仍然收到未通过 AJAX 请求进行更新的页面。

最后我等了很长时间(50秒)AJAX请求才显示在页面上,然后转储HTML

哦!直接调用该函数效果非常好!

最佳答案

  1. The href does get clicked, but since the page takes a few seconds to load all results dynamically I only get to dump the first page Phantomjs gets to see

通过将渲染、写入和退出调用包装在 setTimeout 中并尝试不同的超时,可以轻松检查是否是这样:

page.open('http://testingsite1.local', function () {
page.evaluate(function(){
$('a[href="javascript:gReport.navigate.paginate(\'paginator_min_row=16max_rows=15rows_fetched=15\')"]').first().attr('href', 'javascript:gReport.navigate.paginate(\'paginator_min_row=1max_rows=5000rows_fetched=5000\')').attr('id','clickit');
$('#clickit')[0].click();
});

setTimeout(function(){
page.render('test.png');
fs.write('test.html', page.content, 'w');
phantom.exit();
}, 5000);
});

如果这确实只是超时问题,那么您应该使用 waitFor() function等待特定条件,例如“加载所有元素”或“加载该类型的 x 个元素”。

  1. The modified href isn't getting "clicked" so the page isn't getting updated

这有点棘手。您可以监听 onConsoleMessageonErroronResourceErroronResourceTimeout 事件( Example )并查看是否有页面上有错误。其中一些错误可以通过 PhantomJS 中的操作来修复:Function.prototype.bind not availableHTTPS site/resources cannot be loaded .

还有其他方法可以点击更可靠的内容,例如 this one .

关于javascript - 在 PhantomJS 中动态更改链接并单击它来抓取页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33536601/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com