gpt4 book ai didi

java - 使用 Jsoup 的 connect 方法连接到特定 URL 时出现问题

转载 作者:行者123 更新时间:2023-12-02 08:41:24 25 4
gpt4 key购买 nike

首先,Jsoup的connect方法可能没有问题;我的担心可能是由于对 Document 的 html() 方法的误解,该方法继承自 Element。

我的问题的焦点是从特定的 URL 中提取信息,但由于 Document 的 html() 方法当前返回的字符串,我担心 Jsoup 的 connect() 方法没有连接到指定的 URL,而是连接到网站的通用 URL。

这是我希望我的程序连接到的特定 URL: http://redditsearch.io/?term=&dataviz=false&aggs=false&subreddits=&searchtype=posts&search=true&start=1587355200&end=1587441600&size=100

但我认为它只是连接到该网站的通用 URL: http://redditsearch.io/

我相信这是因为 Document 的 html() 方法返回的字符串:

Document doc = Jsoup.connect("http://redditsearch.io/?term=&dataviz=false&aggs=false&subreddits=&searchtype=posts&search=true&start=1587355200&end=1587441600&size=100").get();
String html = doc.html();
System.out.println(html);

它打印了大量的 HTML,所以我只会与大家分享它的相关方面(请记住,以下文本是从 Document 的 html() 方法返回的):

<div id="results-container" class="data-display"> 
<div id="posts" class="results"></div>
<div id="comments" class="results"></div>
</div>

在我的浏览器检查器 (firefox) 中,此特定 URL 的 HTML 的这方面看起来像这样(请记住,以下文本不是由 Document 的 html() 方法返回的,而是由我的浏览器中的检查器显示):

<div id="results-container" class="data-display"> 
<div id="posts" class="results"></div>
<div class="submission"...> </div> (first line under "posts")
...
<div class="submission"...> </div> (Nth line under "posts")
<div id="comments" class="results"></div>
</div>

这意味着当我将浏览器连接到特定 URL 时,div id="posts"标签下有多行;但是,当我将其连接到通用 URL“redditsearch.io”时,浏览器检查器中该标记下没有任何行(即,当我的浏览器连接到时,HTML 的这方面看起来就像检查器中给出的第一个 HTML 示例一样)通用 URL)。这就是为什么我相信我的程序正在连接到通用 URL,即使我使用特定的 URL 作为参数。

最佳答案

另一点可能是“提交”div 是通过浏览器中的 JavaScript 添加的。

要检查这一点,请关闭浏览器中的 JavaScript(例如使用 NoScript 插件),或者在开发人员控制台的网络选项卡中检查第一个返回的 html 文件。

关于java - 使用 Jsoup 的 connect 方法连接到特定 URL 时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61371872/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com