gpt4 book ai didi

regex - 用 ascii 连字符 "-"替换所有连字符类型

转载 作者:行者123 更新时间:2023-12-04 19:26:49 24 4
gpt4 key购买 nike

有没有办法用简单的ascii“-”替换所有类型的连字符?
我正在寻找这样的适用于空间的东西:

txt = re.sub(r'[\s]+',' ',txt)

我相信一些非ASCII“-”连字符正在避免删除某些特定停用词(由连字符连接的项目名称)的正确过程:

例如,我想用 AR-L1003 替换这个 AR–L1003',但我想对整个文本执行此操作。

最佳答案

您可以只在类中列出这些连字符。这是一个可能的列表 - 将其扩展到您的需求:

txt = re.sub(r'[‐᠆﹣-⁃−]+','-',txt)

标准 re库不支持 \p用于匹配 unicode 类别的语法,但如果您可以导入 regex ,那么有可能:
import regex

txt = regex.sub(r'\p{Pd}+', '-', txt)

关于regex - 用 ascii 连字符 "-"替换所有连字符类型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53750961/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com