gpt4 book ai didi

c - 正则表达式获取所有不带属性的html标签

转载 作者:行者123 更新时间:2023-11-30 15:38:07 25 4
gpt4 key购买 nike

我需要从字符串中获取所有没有属性的 HTML 标签。我尝试了正则表达式:< *([^/][^ ]*).*?>但它仍然获取 HTML 标记和属性。

谁能帮我找到一个正则表达式来得到这个。

示例:

来自 <html><head></head><body class="body"><a href="abc.html"></a></body> ,我想要<html><head></head><body><a></a></body> .

以及一个仅获取 html 标签的正则表达式

获取html head head body a a body

谢谢大家。

最佳答案

虽然通常尝试使用正则表达式解析 HTML 并不是一个好主意,但在本例中它是有效的。

尝试以下替换

s/<( *\w+)( [^>/]+)?(/?)>/<$1$3>/g

这与左尖括号匹配,然后捕获可能的空格和其后的任何单词字符 ([A-Za-z0-9_])。然后,如果有一个空格后跟任何既不是斜杠也不是右尖括号的字符,则它匹配。然后它捕获可选的斜杠和右尖括号。

它将其替换为左尖括号、捕获的标记、捕获的可选斜杠和右尖括号。

这假设不存在不属于标记的左尖括号或右尖括号。

关于c - 正则表达式获取所有不带属性的html标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21933112/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com