gpt4 book ai didi

python - 在 Python unicode 字符串中删除重音符号(规范化)的最佳方法是什么?

转载 作者:行者123 更新时间:2023-11-28 19:26:07 27 4
gpt4 key购买 nike

我在 Python 中有一个 Unicode 字符串,我想删除所有重音符号(变音符号)。

我在网上找到了一种优雅的方法(在 Java 中):

  1. 将 Unicode 字符串转换为其长规范化形式(字母和变音符号使用单独的字符)
  2. 删除所有 Unicode 类型为“diacritic”的字符。

我是否需要安装诸如 pyICU 之类的库,或者仅使用 Python 标准库是否可行?那么 python 3 呢?

重要说明:我想避免使用从重音字符到非重音字符的显式映射的代码。

最佳答案

Unidecode是这个的正确答案。它将任何 unicode 字符串音译为最接近的 ascii 文本表示形式。

例子:

>>> from unidecode import unidecode
>>> unidecode('kožušček')
'kozuscek'
>>> unidecode('北亰')
'Bei Jing '
>>> unidecode('François')
'Francois'

关于python - 在 Python unicode 字符串中删除重音符号(规范化)的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11976720/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com