gpt4 book ai didi

ajax - 网站抓取 : Waiting until site is completly loaded

转载 作者:行者123 更新时间:2023-12-04 18:08:32 24 4
gpt4 key购买 nike

我需要下载以下网页:http://m.10bet.com/#leage_panel#10096

这是一个体育博彩页面,我需要报价。所以,首先这看起来很简单。但是,这是发生的事情(您可以使用例如浏览器的开发人员工具进行检查):

  • 打开网址
  • 该页面加载一个初始 HTML,随后调用 ajax 请求来检索引号
  • 但是,引用包含在 json 中,但是它们被混淆了,因此不可能直接从 ajax 调用中直接解析它们。此外,网页的 javascript 也被混淆了。所以没有机会直接从请求中读取报价。

  • 相反,我需要使用能够评估 javascript 的 headless 浏览器。用于 Java 的 HtmlUnit 是不够的,因为它不提供强大的 javascript 功能。因此 PhantomJS 结合 CasperJS 是我目前的选择。我使用以下脚本应用 CasperJS:
    var casper = require('casper').create();

    casper.start('http://m.10bet.com/#leage_panel#10096', function() {
    var url = 'http://m.10bet.com/#leage_panel#10096';
    this.download(url, '10bet.html');
    });

    casper.run(function() {
    this.echo('Done.').exit();
    });

    但是,此脚本不会加载完整页面。只是初始页面。如何加载浏览器中显示的完整网页?

    最佳答案

    该脚本看起来是一个好的开始,但是一旦您的 (HTML) 页面加载,(CasperJS) 脚本就会停止,因为您还没有给它更多的指令。解决此问题的最粗略的方法是休眠几秒钟,然后抓取页面:

    var casper = require('casper').create();
    var fs=require('fs');

    casper.start('http://m.10bet.com/#leage_panel#10096', function() {
    this.wait(2000, function() {
    fs.write("10bet.html", this.getHTML() );
    });
    });

    casper.run();

    出于以下几个原因,2000 毫秒的超时是粗略的:
  • 如果数据加载速度快于您正在浪费时间。
  • 如果加载速度较慢,您的脚本将无法运行。

  • 因此,最好在页面上确定您想要和需要出现的内容,然后使用 Casper 的 waitForXXX() 之一。职能。请参阅此处开始的 API 文档: http://casperjs.readthedocs.org/en/latest/modules/casper.html#waitfor

    另外一点,我猜您实际上并不想要整个 HTML 页面,只想要其中的数据。 getHTML()需要一个参数来过滤接收到的内容。例如。在你的情况下 getHTML('#league_block')可能更有用。同样,请参阅 API 文档以获取更多想法。

    关于ajax - 网站抓取 : Waiting until site is completly loaded,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20226345/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com