gpt4 book ai didi

java - 在 Jsoup 中,如何连接和读取带有 "https://rateyourmusic.com/film/%E4%B9%B1"之类的 URL 的页面?

转载 作者:行者123 更新时间:2023-11-30 08:28:07 25 4
gpt4 key购买 nike

抱歉不得不将 URL 放在标题中,但我不知道如何描述它。

无论如何...我有一个包含以下 URL 的文件:

https://rateyourmusic.com/film/%E7%A0%82%E3%81%AE%E5%A5%B3
https://rateyourmusic.com/film/%E7%94%9F%E3%81%8D%E3%82%8B
https://rateyourmusic.com/film/%E4%B9%B1
https://rateyourmusic.com/film/%E7%BE%85%E7%94%9F%E9%96%80

我想使用 Jsoup 用 Ja​​va 编写一个程序,它可以打开这些 URL 并收集一些信息。这是程序:

public class RymUrlTest {
public static void main(String args[]){
try {
BufferedReader br = new BufferedReader((new FileReader("list.txt")));

String line="";
while ((line = br.readLine()) != null) {
Document d = Jsoup.connect(line).timeout(0).userAgent("Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.110 Safari/537.36").get();
}
br.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}

但是,我收到以下错误:

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404, URL=http://rateyourmusic.com/film/��女
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:435)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:446)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153)
at RymUrlTest.main(RymUrlTest.java:15)

有人知道如何让 Jsoup 正确识别 URL 吗?

即使我尝试使用 URLEncoder.encode,我仍然会遇到错误。

最佳答案

您正在点击的网址是 302 重定向到另一个网址,这是给您错误的网址。原始响应 header 构成问题列表中的第一个 URL 是:

HTTP/1.1 302 Found
Server: nginx
Date: Thu, 05 Dec 2013 05:15:14 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 317
Location: http://rateyourmusic.com/film/ç ã®å¥³
Mime-Version: 1.0
X-Firefox-Spdy: 2

确保您已将 JSOUP 配置为遵循重定向并处理 UTF-8 字符集中的 URL。

同时尝试在 firefox 中打开 URL 并收集它发送的请求 header 。在您自己的代码中使用这些请求 header 。

关于java - 在 Jsoup 中,如何连接和读取带有 "https://rateyourmusic.com/film/%E4%B9%B1"之类的 URL 的页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20389965/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com