gpt4 book ai didi

java - 使用将 Java 呈现为 String 的 Javascript 获取最终 HTML

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:16:31 24 4
gpt4 key购买 nike

我想从 HTML 页面获取数据(抓取它)。但它包含 javascript 中的评论。在正常的 java url 获取中,我只获取 HTML(实际的)而没有执行 Javascript。我想要执行 Javascript 的最后一页。

示例:- http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp

此页面有作为 Facebook 插件的评论,这些评论是作为 Javascript 获取的。

这个连上也是类似的。 http://www.imdb.com/title/tt0848228/reviews

我该怎么办?

最佳答案

使用phantomjs:http://phantomjs.org

var page = require('webpage').create();
page.open("http://www.glamsham.com/movies/reviews/rowdy-rathore-movie-review-cheers-for-rowdy-akki-051207.asp")
setTimeout(function(){
// Where you want to save it
page.render("screenshoot.png")
// You can access its content using jQuery
var fbcomments = page.evaluate(function(){
return $(".fb-comments iframe").contents().find(".postContainer")
})
},10000)

您必须使用 phantom --web-security=no 中的选项来允许跨域交互(即对于 facebook iframe)

要与 phantomjs 中的其他应用程序通信,您可以使用网络服务器或发出 POST 请求:https://github.com/ariya/phantomjs/blob/master/examples/post.js

关于java - 使用将 Java 呈现为 String 的 Javascript 获取最终 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10872382/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com