- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
题
请建议一种去除标点符号的方法,但不是<unk>
中的那些。或 <UNK>
.
例如,来自:the asbestos fiber <unk> <unk| is < unusually <unk once it enters the <<unk>$% with
产生:the asbestos fiber <unk> unk is unusually unk once it enters the unk with
在下面尝试过,但没有达到预期。
text = "the asbestos fiber <unk> <unk| is < unusually <unk once it enters the <<unk>$% with "
replacement = " "
pattern: str = '(?<!<unk)[%s%s]+(?!unk>)' % (re.escape(string.punctuation), r"\s")
re.sub(pattern=pattern, repl=replacement, string=text, flags=re.IGNORECASE).lower().strip()
结果:
the asbestos fiber <unk> unk| is unusually unk once it enters the <unk> with
最佳答案
您可以使用以下正则表达式搜索匹配项并将其替换为空格:
(?:(?!<unk>)[\W_](?<!<unk>))+
见
regex demo .
(?:
- 非捕获组的开始:(?!<unk>)
- 下一个字符不应该是 <unk>
的起始字符字符序列 [\W_]
- 任何非字母数字字符 (?<!<unk>)
- 先前匹配的字符(带有 [\W_]
)不能是 <unk>
的起始字符字符序列 )+
- 一次或多次。 import re
text = "the asbestos fiber <unk> <unk| is < unusually <unk once it enters the <<unk>$% with "
replacement = " "
pattern: str = r'(?:(?!<unk>)[\W_](?<!<unk>))+'
print( re.sub(pattern, replacement, text, flags=re.I) )
# => the asbestos fiber <unk> unk is unusually unk once it enters the <unk> with
关于Python regex - 删除标点符号但保留 <uk> 原样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67161529/
我正在尝试从 csv 文件中读取数据,而不是例如001000 我在我的数据中得到 1000。 我试过设置 as.is=!stringsAsFactors ,但收到以下错误消息: error: obj
我正在尝试实现类似于Go Playground的 share 按钮的功能。 单击名为share的按钮时,当前的HTML响应将保存到文件中。这还包括用户可以看到的所有内容。 到目前为止我可以做什么 -我
在迁移到使用git的过程中,我们获得了一个解决方案的生产版本,并将其作为master提交。 然后我们制作了一个开发版本,并创建了一个名为develop的孤立分支。 (背景:我们在这里有点纠结的原因是,
题 请建议一种去除标点符号的方法,但不是 中的那些。或 . 例如,来自:the asbestos fiber $% with 产生:the asbestos fiber unk is unusu
我正在创建一个包含所有其他程序的程序,但是当我尝试写入该文件时,它会将 \n 作为新行打印,而不是字面上的 \n . 例如: file.write("""a=input("What would you
我有一个 docker 安装,在 /var/lib/docker 中有几个图像和大约 150Gigs 的数据。此设置使用 overlayfs 作为其存储驱动程序。 /var/lib/docker/ov
我是一名优秀的程序员,十分优秀!