gpt4 book ai didi

java - 使用 HttpURLConnection 在 Java 中处理 HTTP 302 的问题

转载 作者:行者123 更新时间:2023-11-29 08:58:51 26 4
gpt4 key购买 nike

我正在尝试创建一个代码来获取所需网站的最终重定向 URL,但我在处理 HTTP 响应 302 时遇到了问题。它似乎没有正确执行请求,否则我不明白是什么错误的。我已经测试了它强制重定向到 twitter.com 和 facebook.com 并且效果很好(虽然响应 301),但是当尝试“urlin”中指示的 URL 时,会进入无限循环的 http 302 响应。

这是我的第一篇文章,所以我无法发布打印输出,因为它提供了两个以上的链接。

代码如下:

/**
* @param args
*/
public static void main(String[] args) {
String urlin = "http://feeds.nashuatelegraph.com/~r/news/breaking/~3/jxDTXgSDSGc/jpmorgan-ex-workers-charged-in-london-whale-loss.html";
String url = new String();
try{
System.out.println("URL to redirect: "+urlin);
int iteration = 0;
//Preparamos la conexión
HttpURLConnection con =(HttpURLConnection) new URL(urlin).openConnection();
// con.setRequestProperty("User-Agent", "Mozilla 5.0");
con.setReadTimeout(20000);
con.setInstanceFollowRedirects(false);

//Definimos un booleano que hara de flag
boolean redirect = true;
//Iniciamos la busqueda de URL final
while(redirect){
System.out.println("\nIteration number: "+ ++iteration);
con.connect();
System.out.println("Connected URL: "+con.getURL().toString());
int status = con.getResponseCode();
System.out.println("status: "+status);
//Tratamos el codigo de respuesta obtenido
if (status != HttpURLConnection.HTTP_OK) {
if (status == HttpURLConnection.HTTP_MOVED_TEMP
|| status == HttpURLConnection.HTTP_MOVED_PERM
|| status == HttpURLConnection.HTTP_SEE_OTHER){
redirect = true;
//Capturamos la nueva URL
String newUrl = con.getHeaderField("location");
//Obtenemos la cookie por si se necesita
String cookies = con.getHeaderField("Set-Cookie");
System.out.println("Cookies: "+cookies);
//Reabrimos la conexión
con = (HttpURLConnection) new URL(newUrl).openConnection();
if(cookies!=null){
con.setRequestProperty("Cookie", cookies);
}
}
//Tratamos los errores 400 y 404
if (status == HttpURLConnection.HTTP_NOT_FOUND || status == HttpURLConnection.HTTP_BAD_REQUEST){
throw new Exception("Error 400 o 404");
}
} else {
redirect = false;
//Obtenemos la URL final
url = con.getURL().toString();
}
}
} catch (SocketTimeoutException e) {
System.out.println("Se ha producido un timeout con URL: "+urlin);
} catch (UnknownHostException e) {
System.out.println("Direccion URL desconocida: "+urlin);
e.printStackTrace();
} catch (IOException e) {
System.out.println("Error IOException al procesar el registro URL: "+urlin);
e.printStackTrace();
} catch (Exception e) {
System.out.println("Error al procesar el registro URL: "+urlin);
e.printStackTrace();
}
if(!url.equals("")) {
System.out.println("URL final: "+url);
} else {
System.out.println("URL final: "+urlin);
}
}

我将感谢您提供的所有建议。

最佳答案

您正在抓取的网站似乎进行了多次重定向,使用 cookie 来识别实际步骤。

在您的代码中,您仅拦截了 Set-Cookie header ,但您正在丢弃之前设置的 cookie(即响应 n-2 设置的 cookie)。

此外,该站点执行 http/https 切换,您可能需要考虑这一点,以便发送适当的 cookie 集。

关于java - 使用 HttpURLConnection 在 Java 中处理 HTTP 302 的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18701167/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com