gpt4 book ai didi

python - 在 Python 3 中从推文中解码表情符号

转载 作者:太空宇宙 更新时间:2023-11-03 16:45:36 24 4
gpt4 key购买 nike

我有一个简单的 python 脚本,可以获取推文的文本。

但是,表情符号以某种方式进行编码,因此它们在输出\xf0\x9f\x90\xa3 中看起来像这样。

有没有办法从这个输出中找出这是什么表情符号?

最佳答案

很可能它是 UTF-8 编码的(与其余数据一样,只是 ASCII 文本恰好以 ASCII 和 UTF-8 相同的方式呈现)。

如果你有一个像b'\xf0\x9f\x90\xa3'这样的字节,你只需这样做:

b = b'\xf0\x9f\x90\xa3'
txt = b.decode('utf-8')

如果您收到的格式为 str,这可能是错误的解码为 latin-1 或其他代码页,因此只需撤消它并使用 UTF- 重做即可8:

b = '\xf0\x9f\x90\xa3'
txt = b.encode('latin-1').decode('utf-8')
# If it's not latin-1, could be sys.getdefaultencoding()

它的序数为 0x1f423(我的计算机无法显示它,或者我会在此处添加它),这对于大多数表情符号来说都在正确的范围内。 As noted in the comments , unicodedata将字符报告为 HATCHING CHICK .

关于python - 在 Python 3 中从推文中解码表情符号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36335848/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com