data = 我有这样的数据“我们 96 35 实验室的各种人将准备 43 65 66 43 升左右的 lb 添加卡那霉素”
我想把它打印成“我们实验室的各种人会准备 43 升左右的 lb 添加卡那霉素”
请注意:不应移除 43 升。因为它在数字后面有文本,因此不是孤立的。
我尝试使用以下方式:-
data = re.sub('\s[a-z]\s', ' ', data)
data = re.sub('\s[a-z]\s', ' ', data)
data = re.sub('\s[a-z]\s', ' ', data)
data = re.sub('\s[a-z]\s', ' ', data)
要删除 4 个孤立的“a”,我必须执行相同的任务 4 次。孤立的数字也是如此。
是否有更好的正则表达式版本可以完成同样的操作?
- 我会使用
\b
(单词边界)来仅替换作为“单词”的数字(不附加到其他字母)。如果要删除的字符串位于字符串的开头/结尾,则在前后搜索空格会使您错过匹配项。
- 我会使用相同的
\b
来隔离单个字母(鉴于您的尝试,您想删除所有单个字母)
替换后会多出1个空格,所以我在匹配后消耗掉了。代码:
import re
s = "various people in our 96 35 lab will a a a a prepare 43 65 66 43liter or so of lb add kanamycin"
print(re.sub(r"\b\d+\b *|\b[a-z]\b *","",s))
结果:
various people in our lab will prepare 43liter or so of lb add kanamycin
我们可以用 group 进一步分解正则表达式,因为开始和结束是相同的:
print(re.sub(r"\b(\d+|[a-z])\b *","",s))
我是一名优秀的程序员,十分优秀!