gpt4 book ai didi

java - 使用 Java 从文件中提取所有 HTML 标签,包括结束标签,而无需使用 Jsoup 等外部库

转载 作者:行者123 更新时间:2023-12-01 12:09:13 36 4
gpt4 key购买 nike

我有这段代码,它将接收一个 HTML 文件,获取所有打开的 HTML 标签,然后打印它们。我想知道是否有一种方法可以在此代码中包含结束标签。所以现在它打印:

<html>
<head>
<title>
<body>
<table>
<p>
<a>
<p>
etc. etc.

我正在寻找它来打印结束标签。

<p>
<a>
</a>
</p>

这是我迄今为止的代码:

        try {
BufferedReader in = new BufferedReader(new FileReader("test.html"));
String line;
StringBuilder stringBuilder = new StringBuilder();
while ((line = in.readLine()) != null) {
stringBuilder.append(line);
}
String pageContent = stringBuilder.toString();
Pattern pattern = Pattern.compile("<(?!!)(?!/)\\s*([a-zA-Z0-9]+)(.*?)>");
Matcher matcher = pattern.matcher(pageContent);
while (matcher.find()) {
String tagName = matcher.group(1);
System.out.println("<" + tagName + ">");
}
in.close();
}

编辑:有没有办法在不使用像 Jsoup 这样的外部库的情况下做到这一点?编辑2:我将 Pattern.compile 更改为 this-> <([a-zA-Z0-9]+|/[a-zA-Z0-9]+)(.*?)> 并且它有效。谢谢。

最佳答案

如果可以使用外部库,您可以按照此处所述使用 JSoup。 Extract Tags from a html file using Jsoup

关于java - 使用 Java 从文件中提取所有 HTML 标签,包括结束标签,而无需使用 Jsoup 等外部库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27365295/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com