gpt4 book ai didi

java - 使用 java 的 URLConnection 的问题

转载 作者:行者123 更新时间:2023-12-01 08:54:44 25 4
gpt4 key购买 nike

我正在尝试读出网站的代码。但是如果我想接收该网站的代码,例如:“https://www.amazon.de/gp/bestsellers/pet-supplies/#2 ”,则会出现问题我尝试了很多,但仍然只收到https://www.amazon.de/gp/bestsellers/pet-supplies的代码“。所以有些事情不太正常,因为我想要获得 21-40 名而不是 1-20 名。我正在使用 URLConneciton 和 BufferedReader:

public String fetchPage(String urlS){       
String s = null;
String qc = null;

try{
URL url = new URL(urlS);
URLConnection uc = url.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0");

BufferedReader reader = new BufferedReader(new InputStreamReader(uc.getInputStream()));


while((s = reader.readLine()) != null){
qc += s;
}
reader.close();
} catch(IOException e) {
e.printStackTrace();
qc = "receiving qc failed";
}
return qc;
}

预先感谢您的努力:)

最佳答案

您正在获取的 URL 包含一个 anchor (末尾的 #2)。 anchor 是一个客户端概念,最初用于跳转到页面的某个部分。一些网络应用程序(主要是单页应用程序)使用 anchor 来跟踪某种状态(例如,您正在查看的产品页面)。

由于 anchor 是一个客户端概念,因此响应的网络服务器(或您的浏览器/HTTP 客户端库)只会删除任何 anchor ,就像您实际请求https://www.amazon .de/gp/bestsellers/pet-supplies

最重要的是,你永远不会获得第二页......不过,祝你好运,抓取亚马逊;)

关于java - 使用 java 的 URLConnection 的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42115259/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com