gpt4 book ai didi

python - 在 Python 中使用正则表达式替换除特定元素之外的所有元素

转载 作者:太空狗 更新时间:2023-10-30 02:34:58 24 4
gpt4 key购买 nike

在 Python 中使用正则表达式,我试图删除字符串中的所有 XML 类型元素,但包含 QUOTE 的元素除外,例如 <QUOTE> , </QUOTE><QUOTE A="B">应该保留,但其他如 <EXAMPLE><TEST A="B">应该被删除。我创建了这个,它替换了所有元素但无法计算出非部分:

re.sub(r'</?[\w= \-"]+>', '', s)

有什么想法吗?

最佳答案

我相信否定的前瞻断言会做你想做的事:

import re

regex = r'<(?!/?QUOTE\b)[^>]+>'

tests = [
'a plain old string',
'a string with <SOME> <XML TAGS="stuff">',
'a string with <QUOTE>, </QUOTE>, and <QUOTE with="data">',
'a string that has <QUOTEA> tags </QUOTEB>',
]

for i in tests:
result = re.sub(regex, '', i)
print('{}\n{}\n'.format(i, result))

编辑:它是如何工作的

前瞻断言,顾名思义,在匹配的字符串中“向前看”,但不消耗它们匹配的字符。您可以进行正面 ((?=...)) 和负面 ((?!...)) 前瞻。 (也有正面和负面的回顾断言。)

因此,显示的正则表达式匹配 <对于标记的开头,然后对 QUOTE 进行否定前瞻带有可选的 /在它之前 ( /? ) 和它后面的单词边界 ( \b )。如果匹配,则正则表达式不匹配,该标记将被忽略。如果不匹配,则正则表达式继续吃一个或多个非 >字符和结尾> .我猜你可能想让它也吃掉标签后面的任何空格——我没有那样做。

关于python - 在 Python 中使用正则表达式替换除特定元素之外的所有元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5423811/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com