gpt4 book ai didi

java - 网页内容(可读性 View )

转载 作者:行者123 更新时间:2023-12-01 09:13:44 26 4
gpt4 key购买 nike

我是java编程新手。我只想要该页面的网页内容。但我得到的程序给了我 html 标签,其中包含我不想要的内容。

谁能帮我解决这个问题吗?

谢谢。

我的代码如下所示:

import java.net.*;
import java.io.*;

public class URLReader {
public static void main(String[] args) throws Exception {

URL oracle = new URL("http://www.oracle.com/");
BufferedReader in = new BufferedReader(
new InputStreamReader(oracle.openStream()));

String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
}
}

最佳答案

如果您确实只需要网页的一小部分,则必须解析收到的 HTML 页面。没有其他办法。当您使用 InputStreamReader 读取页面内容时,您将得到与浏览器相同的结果。

浏览器和代码之间的唯一区别是浏览器解释内容。

您需要解析 HTML (XML) 内容才能找到正确的文本。

这是一个很好的教程,您可以按照它来使用内置的 Java XML 解析器:https://www.tutorialspoint.com/java_xml/java_dom_parser.htm

关于java - 网页内容(可读性 View ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40739304/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com