gpt4 book ai didi

java - 从无限滚动页面检索 HTML 内容 (Facebook)

转载 作者:塔克拉玛干 更新时间:2023-11-01 21:22:26 24 4
gpt4 key购买 nike

我想从动态网页中检索 HTML 数据,例如公共(public) Facebook 页面:https://www.facebook.com/bbcnews/ (公开内容,无需登录)

例如,在这个页面中,我们有一个无限滚动,我们必须到页面底部才能加载更多帖子。

我当前的代码在这里:

URL url = new URL("https://www.facebook.com/bbcnews/");

BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));
BufferedWriter writer = new BufferedWriter(new FileWriter("path"));

while ((line = reader.readLine()) != null) {
writer.write(line);
}

此代码仅检索页面的第一部分。

如何使用无限滚动检索网页的更多内容?

谢谢。

最佳答案

您不会通过查看 HTTP 流的简单 BufferedReader 获得它。打开浏览器控制台,然后到达页面末尾。您会看到向此 URL 触发了一个 XHR 调用(异步请求):

https://www.facebook.com/pages_reaction_units

有很多 神秘的请求参数。您需要在 Java 代码中执行此类调用。由于某些原因,它被混淆了。从头开始完成它似乎不是一个好方法。

更好用an API provided by Facebook (可能是 API Graph )。

关于java - 从无限滚动页面检索 HTML 内容 (Facebook),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52858241/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com