gpt4 book ai didi

java - 服务器返回 URL 的 HTTP 响应代码 503

转载 作者:行者123 更新时间:2023-12-01 18:09:52 24 4
gpt4 key购买 nike

我可以访问 Kissmanga.com 网站,但无法通过程序访问它。我修复了之前遇到的错误 403,但现在遇到错误 503。

    URL url = new URL("http://kissmanga.com/");
System.setProperty("http.agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.29 Safari/537.36");
BufferedReader bf = new BufferedReader(new InputStreamReader(url.openStream()));

String str;
while((str = bf.readLine()) != null){
System.out.println(str);
}


Error that I get:
Exception in thread "main" java.io.IOException: Server returned HTTP response code: 503 for URL: http://kissmanga.com/
at sun.net.www.protocol.http.HttpURLConnection.getInputStream0(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at java.net.URL.openStream(Unknown Source)
at KissManga.main(KissManga.java:10)

好吧,这段代码可以解决一个恼人的小问题。我没有得到完整的 html,但只有 2/3。

    HtmlUnitDriver driver = new HtmlUnitDriver();
driver.get("http://kissmanga.com/");
Thread.sleep(5000);
System.out.println(driver.getPageSource());
driver.quit();

最佳答案

您不会以这种方式获得任何数据,因为网站会检查是否启用了 Javascript。

您应该尝试可以模拟浏览器行为的工具。例如,您可以通过 Selenium Htmlunit Driver 获取页面源代码。 :

    HtmlUnitDriver drv = new HtmlUnitDriver(BrowserVersion.FIREFOX_38);
drv.setJavascriptEnabled(true);
drv.get("http://kissmanga.com/");
drv.manage().timeouts().implicitlyWait(30, TimeUnit.SECONDS);
System.out.println(drv.getPageSource());

关于java - 服务器返回 URL 的 HTTP 响应代码 503,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33844662/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com