gpt4 book ai didi

python-3.x - 在 python 中标准化双引号、单引号和撇号

转载 作者:行者123 更新时间:2023-12-02 16:36:04 28 4
gpt4 key购买 nike

由于我使用许多不同的字体并且对这些符号中的每一个都有特殊处理,所以我想标准化我的文本字体中的所有引号和撇号条目。

我正在寻找与跳过行条目类似的内容

content=re.sub(r'\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]', '\n', content)

或用于连字符

content = regex.sub(r'\p{Pd}+', '-', content)

你能帮帮我吗?

最佳答案

如果您使用 Uniview工具,您可以搜索所有包含对“单引号”、“双引号”、“撇号”的引用的 Unicode 符号,例如

enter image description here

这里是一些修剪过的输出:

单引号,[\u02BB\u02BC\u066C\u2018-\u201A\u275B\u275C](参见 demo ):

  • ʻ - 02BB 修饰符字母变成逗号
  • ʼ - 02BC 修饰符字母撇号
  • ٬ - 066C 阿拉伯数字千位分隔符
  • - 2018 左单引号
  • - 2019 右单引号
  • - 201A 单低 9 引号
  • - 275B 重型单车逗号引号装饰品
  • - 275C 重单逗号引号装饰品

双引号,[\u201C-\u201E\u2033\u275D\u275E\u301D\u301E](参见 demo ):

  • - 201C 左双引号
  • - 201D 右双引号
  • - 201E 双低 9 引号
  • - 2033 DOUBLE PRIME
  • - 275D 重型双面逗号引号装饰品
  • - 275E 重双逗号引号装饰
  • - 301D 倒置双引号
  • - 301E 双引号

撇号,[\u0027\u02B9\u02BB\u02BC\u02BE\u02C8\u02EE\u0301\u0313\u0315\u055A\u05F3\u07F4\u07F5\u1FBF\u2018\u2019\u2032\uA78C\uFF07](参见 demo):

  • ' - 0027 撇号
  • ʹ - 02B9 修饰符字母 PRIME
  • ʻ - 02BB 修饰符字母变成逗号
  • ʼ - 02BC 修饰符字母撇号
  • ʾ - 02BE 修饰符字母右半环
  • ˈ - 02C8 修饰符字母竖线
  • ˮ - 02EE 修饰符字母双撇号
  • ́ - 0301 合并重音
  • ̓ - 0313 上面的逗号组合
  • ̕ - 0315 组合右上方的逗号
  • ՚ - 055A 亚美尼亚撇号
  • ׳ - 05F3 希伯来语标点符号 GERESH
  • - 07F4 NKO 高音撇号
  • - 07F5 NKO LOW TONE APOSTROPHE
  • ᾿ - 1FBF GREEK PSILI
  • - 2018 左单引号
  • - 2019 右单引号
  • - 2032 PRIME
  • - A78C 拉丁文小写字母 SALTILLO
  • - FF07 全角撇号

关于python-3.x - 在 python 中标准化双引号、单引号和撇号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62722567/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com