gpt4 book ai didi

java - 从从 XML 中提取的文本中剥离标签

转载 作者:搜寻专家 更新时间:2023-11-01 02:32:37 25 4
gpt4 key购买 nike

我正在解析 XML 文档。我做getTextContent()从我想要的特定部分获取文本。我得到的文本有像

这样的标签
<italic> </italic>
<sub> </sub>

..还有更多。我想去掉这些标签,只保留文本,不管标签是什么。

我的文档是这样的

<article>
<sec>Section 1</sec>
<sec>Section 2
<title>Title1</title>
<sec>
<title>Subtitle1</title>
<p>........<italic> </italic>...</p>
</sec>
<sec>
<title>Subtitle2</title>
<p>........<sub> </sub>...</p>
</sec>
</sec>
</article>

我需要 <p>...</p> 中的所有文本没有标签。我该怎么办?我正在考虑识别所有标签并将其替换为 "" .但必须有更好的方法。

谢谢

最佳答案

您可以将此正则表达式应用于 getTextContent() 的结果

String noHTMLString = htmlString.replaceAll("\\<.*?\\>", "");

关于java - 从从 XML 中提取的文本中剥离标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5382172/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com