gpt4 book ai didi

java - 将 HTML 代码添加到列表中

转载 作者:太空宇宙 更新时间:2023-11-04 11:16:19 25 4
gpt4 key购买 nike

所以我正在尝试制作一个刮刀作为我的第一个项目。我是个新手,我不太理解我写的代码。虽然看不懂,但是eclipse中好像没有什么错误。

我编写的代码假设读取 html 源文件并将其逐行添加到数组列表中,直到无法读取为止,然后返回列表。我真的不知道它是否简单,但我不知道为什么它不起作用。

import java.util.ArrayList;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.List;
import java.io.BufferedReader;



public class Scraper {
public static void main(String [] args)throws Exception{

get_url_source("https://statsroyale.com/clan/99VUU8Y");
}

public static List<String> get_url_source(String URL)throws Exception {

List <String> source = new ArrayList <>();

URL stats = new URL("https://statsroyale.com/clan/99VUU8Y");
BufferedReader in = new BufferedReader(new InputStreamReader(stats.openStream()));

String inputLine;
while ((inputLine = in.readLine()) != null)
source.add(inputLine);

return source;
}
}

如果格式错误,我真的很抱歉。仍在尝试了解格式化的工作原理以及内容在哪里。 (事情并不像看上去那么简单)

错误消息很长,但这里是......

Exception in thread "main" java.io.IOException: Server returned HTTP response code: 403 for URL: https://statsroyale.com/clan/99VUU8Y
at sun.net.www.protocol.http.HttpURLConnection.getInputStream0(Unknown Source)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
at java.net.URL.openStream(Unknown Source)
at Scraper.get_url_source(Scraper.java:21)
at Scraper.main(Scraper.java:13)

最佳答案

该网站正在检查您的用户代理以查看是否被机器人访问,要欺骗网站您是普通用户,您必须更改用户代理这样:

    URL stats = new URL("https://statsroyale.com/clan/99VUU8Y");

HttpsURLConnection statsConnection = (HttpsURLConnection) stats.openConnection();
statsConnection.setRequestProperty("User-Agent", "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.4; en-US; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2");
statsConnection.connect();

BufferedReader in = new BufferedReader(new InputStreamReader(statsConnection.getInputStream()));

关于java - 将 HTML 代码添加到列表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45430495/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com