gpt4 book ai didi

javascript - 无法通过 PhantomJs 抓取 url

转载 作者:行者123 更新时间:2023-12-03 05:48:58 26 4
gpt4 key购买 nike

我有一个页面,可能以某种方式受到保护,不会被 headless 浏览器抓取,但当然,我不确定。问题是,在浏览器中它加载良好,JavaScript 执行并且一切都很好。当使用 phanthomjs 时,它不会,似乎 JavaScript 不执行或发生其他问题。

我怎样才能找到它?您建议如何抓取该页面?

最佳答案

这是一个基本的 phantomjs 脚本,如果对指定 URL 的请求成功与否,该脚本将打印到控制台。这应该可以帮助您查看是否可以访问该页面。如果你取得了成功,你应该能够抓取。这会让我认为是你的 JS 导致了问题,而不是 headless 浏览器。如果打印“不成功”,您可以设置 userAgent 设置,使其看起来像一个真正的浏览器。

var page = new WebPage();
// Uncomment the next line to set the user agent.
//page.settings.userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36';
page.open('http://www.google.ca', function (status) {
if (status !== 'success') {
console.log('Unsuccessful');
} else {
console.log('Successful')
}
phantom.exit();
});

http://www.google.ca 更改为您想要的网址。

关于javascript - 无法通过 PhantomJs 抓取 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40224280/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com