gpt4 book ai didi

java - 从html中获取原始文本

转载 作者:行者123 更新时间:2023-12-02 07:57:01 24 4
gpt4 key购买 nike

我目前处于 Android 开发的基础水平。

我想从“http://www.google.com”等页面获取文本。 (我将使用的页面只有文字,所以没有图片或类似的东西)因此,需要明确的是:我希望将页面上写入的文本转换为应用程序中的字符串等。

我尝试了这段代码,但我什至不确定它是否符合我的要求。

URL url = new URL(/*"http://www.google.com");
URLConnection connection = url.openConnection();
// Get the response
BufferedReader rd = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String line = "";

无论如何我都无法从中获取任何文本。我该怎么做?

最佳答案

从您提供的示例代码中,您甚至没有读取请求的响应。我将使用以下代码获取 html

URL u = new URL("http://www.google.com");
URLConnection conn = u.openConnection();
BufferedReader in = new BufferedReader(
new InputStreamReader(
conn.getInputStream()));
StringBuffer buffer = new StringBuffer();
String inputLine;
while ((inputLine = in.readLine()) != null)
buffer.append(inputLine);
in.close();
System.out.println(buffer.toString());

如果您只需要文本,您需要将字符串传递到某种 html 解析器中。据我所知JTidy will 是一个很好的库,但是我从未使用过任何 Java html 解析库。

关于java - 从html中获取原始文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9489726/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com