gpt4 book ai didi

python - python中的正则表达式多次删除字符和数字的孤立出现

转载 作者:太空宇宙 更新时间:2023-11-04 05:12:36 26 4
gpt4 key购买 nike

data = 我有这样的数据“我们 96 35 实验室的各种人将准备 43 65 66 43 升左右的 lb 添加卡那霉素”

我想把它打印成“我们实验室的各种人会准备 43 升左右的 lb 添加卡那霉素”

请注意:不应移除 43 升。因为它在数字后面有文本,因此不是孤立的。

我尝试使用以下方式:-

data = re.sub('\s[a-z]\s', ' ', data)
data = re.sub('\s[a-z]\s', ' ', data)
data = re.sub('\s[a-z]\s', ' ', data)
data = re.sub('\s[a-z]\s', ' ', data)

要删除 4 个孤立的“a”,我必须执行相同的任务 4 次。孤立的数字也是如此。

是否有更好的正则表达式版本可以完成同样的操作?

最佳答案

  • 我会使用 \b(单词边界)来仅替换作为“单词”的数字(不附加到其他字母)。如果要删除的字符串位于字符串的开头/结尾,则在前后搜索空格会使您错过匹配项。
  • 我会使用相同的 \b 来隔离单个字母(鉴于您的尝试,您想删除所有单个字母)

替换后会多出1个空格,所以我在匹配后消耗掉了。代码:

import re

s = "various people in our 96 35 lab will a a a a prepare 43 65 66 43liter or so of lb add kanamycin"

print(re.sub(r"\b\d+\b *|\b[a-z]\b *","",s))

结果:

various people in our lab will prepare 43liter or so of lb add kanamycin

我们可以用 group 进一步分解正则表达式,因为开始和结束是相同的:

print(re.sub(r"\b(\d+|[a-z])\b *","",s))

关于python - python中的正则表达式多次删除字符和数字的孤立出现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42635026/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com