gpt4 book ai didi

java - 如何删除字符串中 HTML 标记中的所有 HTML 属性

转载 作者:搜寻专家 更新时间:2023-11-01 01:08:42 30 4
gpt4 key购买 nike

我正在尝试获取一个包含 HTML 的字符串,去除一些标签(img、object)和所有其他 HTML 标签,去除它们的属性。例如:

<div id="someId" style="color: #000000">
<p class="someClass">Some Text</p>
<img src="images/someimage.jpg" alt="" />
<a href="somelink.html">Some Link Text</a>
</div>

会变成:

<div>
<p>Some Text</p>
Some Link Text
</div>

我正在尝试:

string.replaceAll("<\/?[img|object](\s\w+(\=\".*\")?)*\>", ""); //REMOVE img/object

虽然我不确定如何去除标签内的所有属性。

如有任何帮助,我们将不胜感激。

谢谢。

最佳答案

您可以像这样删除所有属性:

string.replaceAll("(<\\w+)[^>]*(>)", "$1$2");

这个表达式匹配一个开始标签,但只捕获它的标题 <div和结束>作为第 1 组和第 2 组。replaceAll使用对这些组的引用 将它们作为$1$2 加入到输出中.这将删除标记中间的属性。

关于java - 如何删除字符串中 HTML 标记中的所有 HTML 属性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9415881/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com