gpt4 book ai didi

python - 解码为 un​​icode 并返回后获取原始字节

转载 作者:太空宇宙 更新时间:2023-11-03 20:29:05 24 4
gpt4 key购买 nike

我有一个字节字符串,我正在使用 .decode('unicode-escape') 在 python 中将其解码为 un​​icode 。这将返回一个 unicode 字符串。对此 unicode 字符串进行编码以再次以字节形式获取它,但会返回不同的字节字符串。为什么会这样?如何以保留原始数据的方式进行解码和编码?

示例:

some_bytes = b'7Q\x82\xacqo\xbb\x0f\x03\x105\x93<\xebD\xbe\xde\xad\x82\xf9\xa6\x1cX\x01N\x8c\xff\x9e\x84\x1e\xa1\x97'

some_bytes.decode('unicode-escape')

产量:7Q¬qo»5<ëD¾Þ­ù¦XNÿ¡

some_bytes.decode('unicode-escape').encode()

产量:b'7Q\xc2\x82\xc2\xacqo\xc2\xbb\x0f\x03\x105\xc2\x93<\xc3\xabD\xc2\xbe\xc3\x9e\xc2\xad\xc2\x82\xc3\xb9\xc2\xa6\x1cX\x01N\xc2\x8c\xc3\xbf\xc2\x9e\xc2\x84\x1e\xc2\xa1\xc2\x97'

最佳答案

xc2,xc3 指 utf-8 中的 00。例如:对于 2 次方,utf-8 为\xc2\xb2

因此,当您编码时,它会添加在每个代码点之前。

欲了解更多详情,请参阅以下链接

https://www.utf8-chartable.de/unicode-utf8-table.pl?start=128&number=128&utf8=string-literal&unicodeinhtml=hex

关于python - 解码为 un​​icode 并返回后获取原始字节,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57633545/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com