gpt4 book ai didi

java - JSoup.connect 抛出 403 错误,而 apache.httpclient 能够获取内容

转载 作者:IT老高 更新时间:2023-10-28 20:56:55 30 4
gpt4 key购买 nike

我正在尝试解析任何给定页面的 HTML 转储。我用了HTML Parser也试过JSoup用于解析。

我在 Jsoup 中找到了有用的函数,但在调用 Document doc = Jsoup.connect(url).get(); 时出现 403 错误;

我尝试了 HTTPClient,以获取 html 转储,并且对于相同的 url 是成功的。

为什么 JSoup 为从 commons http 客户端提供内容的同一 URL 提供 403?难道我做错了什么?有什么想法吗?

最佳答案

工作解决方案如下(感谢Angelo Neuschitzer提醒将其作为解决方案):

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag(HTML.Tag.CITE.toString);
for (Element link : links) {
String linkText = link.text();
System.out.println(linkText);
}

所以,userAgent 成功了 :)

关于java - JSoup.connect 抛出 403 错误,而 apache.httpclient 能够获取内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10120849/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com