gpt4 book ai didi

python - 将变音符号或修饰符变音符号 Unicode 字符转换为 'combining form'

转载 作者:行者123 更新时间:2023-12-04 17:20:00 24 4
gpt4 key购买 nike

我在 Unicode 字符串中有一些重音/变音符号,我想将它们转换为它们的“组合形式”(根据 Unicode 标准)。例如,如果我有 \N{CIRCUMFLEX ACCENT} ( \u005E ) 或 \N{MODIFIER LETTER CIRCUMFLEX ACCENT} ( \u02C6 ),我想把它转换成 \N{COMBINING CIRCUMFLEX ACCENT} ( \u0302 )。对于任何变音标记,是否有任何一致、可靠的方法来执行此操作?如果 Python (3.9) 标准库对它有内置支持(可能通过 unicodedata 模块),那将是理想的,但我也很高兴为此使用 pip 包。

最佳答案

这是我目前最好的解决方案。仍然感觉有点hacky,但它似乎适用于我遇到的场景。

from typing import *
import unicodedata

def _strip_prefix(s: str, prefix: str) -> str:
return s[len(prefix):] if s.startswith(prefix) else s

def make_combining_form(diacritic: str) -> Optional[str]:
if unicodedata.category(diacritic) not in ("Sk", "Lm"):
return None

name = unicodedata.name(diacritic)
name = _strip_prefix(name, "MODIFIER LETTER ")
name = _strip_prefix(name, "COMBINING ")
try:
return unicodedata.lookup("COMBINING " + name)
except KeyError:
return None

关于python - 将变音符号或修饰符变音符号 Unicode 字符转换为 'combining form',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66726480/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com