gpt4 book ai didi

Python unicode 索引显示不同的字符

转载 作者:行者123 更新时间:2023-11-28 21:33:00 27 4
gpt4 key购买 nike

我有一个 Python 2.7.10 的“窄”版本中的 Unicode 字符串,其中包含 Unicode 字符。我尝试使用该 Unicode 字符作为字典中的查找,但是当我索引字符串以获取最后一个 Unicode 字符时,它返回一个不同的字符串:

>>> s = u'Python is fun \U0001f44d'
>>> s[-1]
u'\udc4d'

为什么会发生这种情况?如何从字符串中检索 '\U0001f44d'

编辑:unicodedata.unidata_version 为 5.2.0,sys.maxunicode 为 65535。

Screenshot of issue

最佳答案

看起来您的 Python 2 版本使用代理来表示基本多语言平面之外的代码点。参见例如How to work with surrogate pairs in Python?一些背景知识。

我的建议是尽快切换到 Python 3 来处理涉及字符串处理的任何事情。

关于Python unicode 索引显示不同的字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55266887/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com