python - 从 Facebook 数据导出中解码看似格式错误的 Unicode 指针的 utf8 表示-6ren

python - 从 Facebook 数据导出中解码看似格式错误的 Unicode 指针的 utf8 表示

转载作者：行者123 更新时间：2023-12-04 09:35:07

24

4

类似于 this post , 有没有办法解码从 downloading a copy of my Facebook data 返回的一些看似格式不正确的 UTF-8 数据？ ?
看一个特定的例子，在我的一个聊天中，我发送了一条仅包含表情符号💎的消息。开通message_1.json带有 vim 的文件并查看相应的条目会显示文本 "\u00f0\u009f\u0092\u008e" .但是，这与我的终端(Mac OSX)的 View 不同

$ jq '.messages[0].content' message_1.json
"ð"  # stackoverflow seems to be truncating this string, there are 3 extra chars which show as spaces
$ jq '.messages[0].content' message_1.json > utf
$ cat utf
"ð"
$ od -h utf
0000000      c322    c2b0    c29f    c292    228e    000a
0000013
$ wc utf
       1       1      11 utf

这也不同于直接将表情符号粘贴到文件中的输出

$ echo '💎' > gem.txt
$ cat gem.txt
💎
$ od -h gem.txt
0000000      9ff0    8e92    000a
0000005
$ wc gem.txt
       1       1       5 gem.txt

使用 python3 读取这两个文件时，我得到了看似不同的信息

$ python3
Python 3.7.3 (default, Dec 13 2019, 19:58:14)
[Clang 11.0.0 (clang-1100.0.33.17)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> with open('gem.txt', 'r') as f:
...   gem = f.read()
...
>>> gem
'💎\n'
>>> len(gem)
2
>>> ord(gem[0])
128142
>>>
>>>
>>> with open('utf', 'r') as f:
...   utf = f.read()
...
>>> utf
'"ð\x9f\x92\x8e"\n'
>>> len(utf)
7
>>> for char in utf:
...   print(ord(char))
...
34
240
159
146
142
34
10
>>>

基于这种行为，我有几个问题:

Facebook返回的数据是否编码错误？ This page显示 gem 表情符号的正确 Unicode 指针为 U+1F48E ，以及对应的 UTF-8 0xF0 0x9F 0x92 0x8E表示与 od 的字节输出匹配

有没有办法让我解析从 Facebook 返回的字符串？似乎上一个问题建议在这样做之前使用正则表达式来转换文本，这是必需的吗？

gem.txt长度为 5 个字节，减去换行符，4 个字节代表表情符号。这对我来说很有意义，因为它的 UTF-8 表示需要 4 个字节。为什么 utf文档列表 11 个字节(大概 10 个没有换行符)？

最佳答案

看起来您的 JSON 文件的内容确实得到了 mojibaked，即。用错误的编码误解。

>>> import json
>>> # That's how it should look:
>>> print(json.dumps('💎'))
"\ud83d\udc8e"
>>> # That's what you got:
>>> mojibaked = '💎'.encode('utf8').decode('latin1')
>>> print(json.dumps(mojibaked))
"\u00f0\u009f\u0092\u008e"

检查您是否可以修复 JSON 文件的创建方式。
Latin-1 是某些工具/协议(protocol)中的默认值。
方便的是，您始终可以毫无异常(exception)地将任何字节流解码为 Latin-1。
它可能会破坏您的输入，就像这里发生的那样。
如果您无法修复源，则可以通过反向执行编码往返来恢复:

>>> mojibaked = json.loads('"\\u00f0\\u009f\\u0092\\u008e"')
>>> mojibaked
'ð\x9f\x92\x8e'
>>> mojibaked.encode('latin1').decode('utf8')
'💎'

关于python - 从 Facebook 数据导出中解码看似格式错误的 Unicode 指针的 utf8 表示，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62628204/

24

4

0

文章推荐： reactjs - Scss 类在 React 中不起作用，但标准 HTML 标签可以

文章推荐： python-3.x - Django addConstraints 在 Postgres 上引发 TypeError

string - (看似)相同的字符串以不同方式转换为大写
我在将两个“相同”字符串转换为大写时遇到了一个非常奇怪的问题。该程序正在从网站读取行并将其与存储在文本文件中的行进行比较。如果未找到该行，则将其添加到文件末尾。除非该行包含特殊字符，否则这非常有效。由
javascript - (看似)类中函数的冗余命名
我见过对象创建的各种模式，但在深入研究 Firefox 框架 Javascript 后，我注意到他们使用的是我以前从未见过的约定，我希望这里有人可以确认我的假设或纠正我: 在构建类时，我过去曾这样
C++(看似)随机编译器错误
多亏了我在 Oxfam 书店找到的一本小书和一本大书，我一直在研究 C、C++ 和 Allegro。我现在理解得很好，但我遇到了困难……每当我编译时，我都会遇到这些错误: archiboldian@a
ajax - 看似 'live'数据驱动的网站使用了哪些技术？
也许标题可以改写得稍微好一点，但基本上我想知道 facebook 之类的公司如何实现关于新通知/消息等的“实时”界面。我知道这样一个社交网络背后的复杂性太在这个小的 SO 线程中有很多讨论，但如果有人
r - 看似 protected 配对列表的垃圾收集
我想使用 R 的 C 接口(interface)编写一个 R 函数，该函数采用 2 列递增的非重叠整数间隔矩阵，并返回一个包含这些间隔加上一些附加间隔的列表，这样就没有间隙。例如，它应该取矩阵 rbi
java - 不平凡的(看似)StringIndexOutOfBoundsException
我们的崩溃日志系统显示崩溃，我不明白它是如何发生的。用户输入未知。我已添加日志记录，但结果只有在下一个版本(约 2 周)后才能看到。下面的代码如何抛出下一个异常: Crashes with java
JavaFX，命令顺序(看似)被忽略
我正在java1.7下使用JavaFX进行编程，除了这部分之外，所有内容都适用于我的代码。问题是，只有最终结果被写出来。当程序运行时，我希望它在标签中显示“Ping 测试正在运行”文本。但它不会这样做
C 函数返回(看似)随机整数
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
c++ - 模板匹配两个(看似)不相关的类型
我有一个作用域枚举: enum class E { A, B, C }; 现在我想要一个函数，它接受该作用域 int 的值或 int 本身。应该是这样的: template ::value, int
python - 在(看似)无限循环中耗尽浮点精度
我有以下 Python 脚本: x = 300000000.0 while (x < x + x): x = x + x print "exec: " + str(x) print "
c - 为什么我总是看到多行宏包裹在(看似)毫无意义的循环中？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: how does do{} while(0) work in macro? 示例来自 this博文: #de
language-agnostic - 为什么支持基于(看似)任意规则的不同数据类型之间的比较？
我的问题是：“语言设计者为什么要考虑允许在不同数据类型之间进行比较？”。另外，这在功能语言中是否更有意义？例如，在erlang中，可以执行以下比较： %% Tuples are greater th
performance - Haskell 在生成斐波那契数时(看似)随机暂停
我在玩 GHCI，遇到了这个(对我来说)奇怪的小东西。我试过这个: λ> let fibs = 1 : 1 : zipWith (+) fibs (tail fibs) λ> fibs 只是为了看看
testing - Grails 集成测试以(看似)随机且不可重复的方式失败
我们正在 Fixtures 的帮助下为我们的 Grails 2.0.0 应用程序编写集成测试。和 Buid-Test-Data插件。在测试过程中，发现集成测试有时会失败，有时会通过。运行“test-
python - 为什么我会得到一个(看似)正确拆分的字符串的 IndexError？
我目前有一个脚本应该获取并返回 Bit.ly 链接的点击次数。我首先从 Bitly url 收集和读取数据，我似乎在做正确的事情。 bitly_data = "https://api-ssl.
Python 多只 turtle (看似)同时移动
我正在为我的老师测试一些东西，他想看看如果我们模拟同步，下面的程序如何运行得更快(我知道它不可能完全同步，这只是为了实验学习/练习)多只 turtle 的运动。我尝试过使用诸如多处理、线程之类的模块，
c++ - GetFreeDiskSpaceEx 如何返回(看似)错误的磁盘空间量？
所以我在一个输出大图像(从 30MB 到 2GB+ 的任何地方)的设备上工作。在我们开始创建这些图像之一之前，我们通过 GetDiskFreeSpaceEx 检查是否有足够的磁盘空间。通常(在这种情况
assembly - 为什么 BIOS 需要在第二条指令中将(看似)随机地址中的值与零进行比较？
我正在尝试通过深入了解操作系统的底层细节来学习操作系统。我现在上的类(class)是MIT 6.828 Operating System Engineering 。该实验室要求学生追踪 BIOS 以获
string - 可能匹配(看似)无效的 Lua 模式
我知道你不能在 Lua 中重复匹配组。例如，如果我想匹配两个连续的 "45"，我不能这样做: print(string.find("some 4545 text", "(%d%d)+")) 这将打印
javascript - ng-class 的这种(看似)意外行为背后的解释是什么？
这是我创建的一个 plunker:http://plnkr.co/edit/ZoKsO7wu5OvCYtwEi9Iy?p=preview . 点击列表中使用 ng-repeat 渲染的项目之一，例如

首页

博学

6Ren·AI

商城

python - 从 Facebook 数据导出中解码看似格式错误的 Unicode 指针的 utf8 表示