“-6ren">
gpt4 book ai didi

python - 将模式替换为Python中的连续数字字符串

转载 作者:行者123 更新时间:2023-12-02 02:02:17 25 4
gpt4 key购买 nike

我正在尝试在 python 中实现以下替换。将所有 html 标签替换为 {n}& 创建 [tag, {n}] 的哈希
原始字符串 -> "<h> 这是一个字符串。 </H><P> 这是另一部分。 </P> "
替换文本 ->“{0}这是一个字符串。{1}{2}这是另一部分。{3}”

这是我的代码。我已经从替换开始,但我陷入了替换逻辑,因为我无法找出以连续方式替换每个出现的最佳方法,即使用 {0}、{1} 等:

import re
text = "<h> This is a string. </H><p> This is another part. </P>"

num_mat = re.findall(r"(?:<(\/*)[a-zA-Z0-9]+>)",text)
print(str(len(num_mat)))

reg = re.compile(r"(?:<(\/*)[a-zA-Z0-9]+>)",re.VERBOSE)

phctr = 0
#for phctr in num_mat:
# phtxt = "{" + str(phctr) + "}"
phtxt = "{" + str(phctr) + "}"
newtext = re.sub(reg,phtxt,text)

print(newtext)

有人可以提供更好的方法来实现这一目标吗?谢谢!

最佳答案

import re
import itertools as it

text = "<h> This is a string. </H><p> This is another part. </P>"

cnt = it.count()
print re.sub(r"</?\w+>", lambda x: '{{{}}}'.format(next(cnt)), text)

打印

{0} This is a string. {1}{2} This is another part. {3}

仅适用于简单标签(标签中没有属性/空格)。对于扩展标签,您必须调整正则表达式。

此外,不重新初始化 cnt = it.count() 将使编号继续进行。

更新以获取映射字典:

import re
import itertools as it

text = "<h> This is a string. </H><p> This is another part. </P>"

cnt = it.count()
d = {}
def replace(tag, d, cnt):
if tag not in d:
d[tag] = '{{{}}}'.format(next(cnt))
return d[tag]
print re.sub(r"(</?\w+>)", lambda x: replace(x.group(1), d, cnt), text)
print d

打印:

{0} This is a string. {1}{2} This is another part. {3}
{'</P>': '{3}', '<h>': '{0}', '<p>': '{2}', '</H>': '{1}'}

关于python - 将模式替换为Python中的连续数字字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13622517/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com