gpt4 book ai didi

python:在带有正则表达式的字符串中的单词之间插入逗号分隔符

转载 作者:行者123 更新时间:2023-12-04 14:05:55 25 4
gpt4 key购买 nike

我在表格中有一列类似于下图。

<表类="s-表"><头>标签<正文>大面积海洋岛屿交 key 收入潜力大洋岛季节性内地地段Lake IslandSeasonalTurn KeyIncome Potential

我需要拆分表中的字符串,使其看起来像这样

<表类="s-表"><头>标签<正文>大面积,海洋岛屿,交 key ,收入潜力海洋岛,季节性,大陆地段湖岛,季节性,交 key ,收入潜力

我想像 re.sub(r'([a-z][A-Z])', ',', <string>) 这样的正则表达式命令可以工作,但该代码导致

'Large Acreag,cean Islan,urn Ke,ncome Potential'

有什么建议吗?

最佳答案

在表达式中使用两个捕获组并在替换中使用两个反向引用:

re.sub(r'([a-z])([A-Z])', r'\1,\2', <string>)

如果在 Pandas 中:

df['tags'] = df['tags'].str.replace(r'([a-z])([A-Z])', r'\1,\2', regex=True)

参见 regex proof .

解释

--------------------------------------------------------------------------------
( group and capture to \1:
--------------------------------------------------------------------------------
[a-z] any character of: 'a' to 'z'
--------------------------------------------------------------------------------
) end of \1
--------------------------------------------------------------------------------
( group and capture to \2:
--------------------------------------------------------------------------------
[A-Z] any character of: 'A' to 'Z'
--------------------------------------------------------------------------------
) end of \2

关于python:在带有正则表达式的字符串中的单词之间插入逗号分隔符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68536532/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com