gpt4 book ai didi

Python 3 : Converting UTF-8 unicode Hindi Literal to Unicode

转载 作者:行者123 更新时间:2023-12-01 00:15:57 24 4
gpt4 key购买 nike

我有一串 UTF-8 文字

'\xe0\xa4\xb9\xe0\xa5\x80\xe0\xa4\xac\xe0\xa5\x8b\xe0\xa4\xb2' 转换为

印地语ही बोल。我无法将字符串 a 转换为字节

a = '\xe0\xa4\xb9\xe0\xa5\x80 \xe0\xa4\xac\xe0\xa5\x8b\xe0\xa4\xb2'
#convert a to bytes
#also tried a = bytes(a,'utf-8')
a = a.encode('utf-8')
s = str(a,'utf-8')

The string is converted to bytes but contains wrong unicode literals

结果:b'\xc3\xa0\xc2\xa4\xc2\xb9\xc3\xa0\xc2\xa5\xc2\x80\xc3\xa0\xc2\xa4\xc2\xac\xc3\xa0\xc2\xa5\xc2\x8b\xc3\xa0\xc2\xa4\xc2\xb2' 打印 - हॠà¤Øà¥à¤²

预期:应该是b'\xe0\xa4\xb9\xe0\xa5\x80\xe0\xa4\xac\xe0\xa5\x8b\xe0\xa4\xb2 将是 ही बोल

最佳答案

使用raw-unicode-escape编解码器将字符串编码为字节,然后可以解码为UTF-8。

>>> s = '\xe0\xa4\xb9\xe0\xa5\x80 \xe0\xa4\xac\xe0\xa5\x8b\xe0\xa4\xb2'
>>> s.encode('raw-unicode-escape').decode('utf-8')
'ही बोल'

这是一种解决方法;理想的解决方案是防止数据源将原始字节字符串化。

关于Python 3 : Converting UTF-8 unicode Hindi Literal to Unicode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59335416/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com