gpt4 book ai didi

python - 在Python中解码unicode字符串变量

转载 作者:行者123 更新时间:2023-11-30 22:03:11 25 4
gpt4 key购买 nike

我正在使用Python v2.7中的API来获取一个字符串,其内容未知。内容可以是英语、德语或法语。分配给返回字符串的变量名称是“category”。变量类别的返回值的示例是:-

"temp\\u00eate de poussi\\u00e8res"

我已尝试使用 category.decode('utf-8') 将字符串解码为法语(在上述情况下),但不幸的是它仍然返回相同的值,并带有一个额外的 unicode '当我打印category.decode('utf-8')的结果时,u'在开头。

u'"temp\\u00eate de poussi\\u00e8res'

我还尝试了 category.encode('utf-8') 但它返回相同的值(减去字符串前面的“u”:-

'"temp\\u00eate de poussi\\u00e8res"'

有什么建议吗?

最佳答案

我认为你的字符串中有斜杠,而不是 unicode 字符。

也就是说,\u00eaê的unicode转义编码,但是\\u00ea实际上是一个斜杠(转义的),两个零和两个字母。

与引号类似,第一个和最后一个字符是文字​​双引号 "

您可以使用以下方法将这些斜杠加代码点转换为等效字符:

x = '"temp\\u00eate de poussi\\u00e8res"'
d = x.decode("unicode_escape")
print d

输出为:

"tempête de poussières"

请注意,要查看正确的国际字符,您必须使用 print。相反,如果您只是在交互式 Python shell 中编写 d,您将得到:

 u'"temp\xeate de poussi\xe8res"'

其中 \xea 相当于 \u00ea,即 ê 的转义序列。

如果需要,删除引号将作为练习留给读者;-)。

关于python - 在Python中解码unicode字符串变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53615903/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com