gpt4 book ai didi

python isalpha 不能正确处理 unicode 组合标记?

转载 作者:太空宇宙 更新时间:2023-11-04 06:06:12 25 4
gpt4 key购买 nike

我遇到了奇怪的乌克兰词Кири́лл。我将其转换为 unicode 并使用 isalpha 对其进行了测试,结果返回了 False。我环顾四周,发现这个词包含一个名为'combining acute accent'的字符。所以字母 и́ 实际上是两个字符的组合:и́。如果我理解正确的话,组合标记(如这个重音符号)仅用于修饰其他字符。所以 isalpha 应该将这个字符串识别为一个词。我错了吗?有没有办法得到正确的结果?utf8 中的相关单词:

word = '\xd0\x9a\xd0\xb8\xd1\x80\xd0\xb8\xcc\x81\xd0\xbb\xd0\xbb'

最佳答案

我认为您需要替换任何修饰符字符的字符串,因为修饰符字符不被视为 alpha

modifiers = "\xcc\x81|<OTHER>|<MODIFIERS>"

text_to_analyze = re.sub(modifiers,"",my_text)
print unicode(text_to_analyze,"utf8").isalpha()

关于python isalpha 不能正确处理 unicode 组合标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21920882/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com