- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
类似于 this post , 有没有办法解码从 downloading a copy of my Facebook data 返回的一些看似格式不正确的 UTF-8 数据? ?
看一个特定的例子,在我的一个聊天中,我发送了一条仅包含表情符号💎的消息。开通message_1.json
带有 vim
的文件并查看相应的条目会显示文本 "\u00f0\u009f\u0092\u008e"
.但是,这与我的终端(Mac OSX)的 View 不同
$ jq '.messages[0].content' message_1.json
"ð" # stackoverflow seems to be truncating this string, there are 3 extra chars which show as spaces
$ jq '.messages[0].content' message_1.json > utf
$ cat utf
"ð"
$ od -h utf
0000000 c322 c2b0 c29f c292 228e 000a
0000013
$ wc utf
1 1 11 utf
这也不同于直接将表情符号粘贴到文件中的输出
$ echo '💎' > gem.txt
$ cat gem.txt
💎
$ od -h gem.txt
0000000 9ff0 8e92 000a
0000005
$ wc gem.txt
1 1 5 gem.txt
使用 python3 读取这两个文件时,我得到了看似不同的信息
$ python3
Python 3.7.3 (default, Dec 13 2019, 19:58:14)
[Clang 11.0.0 (clang-1100.0.33.17)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> with open('gem.txt', 'r') as f:
... gem = f.read()
...
>>> gem
'💎\n'
>>> len(gem)
2
>>> ord(gem[0])
128142
>>>
>>>
>>> with open('utf', 'r') as f:
... utf = f.read()
...
>>> utf
'"ð\x9f\x92\x8e"\n'
>>> len(utf)
7
>>> for char in utf:
... print(ord(char))
...
34
240
159
146
142
34
10
>>>
基于这种行为,我有几个问题:
U+1F48E
,以及对应的 UTF-8 0xF0 0x9F 0x92 0x8E
表示与 od
的字节输出匹配gem.txt
长度为 5 个字节,减去换行符,4 个字节代表表情符号。这对我来说很有意义,因为它的 UTF-8 表示需要 4 个字节。为什么 utf
文档列表 11 个字节(大概 10 个没有换行符)? 最佳答案
看起来您的 JSON 文件的内容确实得到了 mojibaked,即。用错误的编码误解。
>>> import json
>>> # That's how it should look:
>>> print(json.dumps('💎'))
"\ud83d\udc8e"
>>> # That's what you got:
>>> mojibaked = '💎'.encode('utf8').decode('latin1')
>>> print(json.dumps(mojibaked))
"\u00f0\u009f\u0092\u008e"
检查您是否可以修复 JSON 文件的创建方式。
>>> mojibaked = json.loads('"\\u00f0\\u009f\\u0092\\u008e"')
>>> mojibaked
'ð\x9f\x92\x8e'
>>> mojibaked.encode('latin1').decode('utf8')
'💎'
关于python - 从 Facebook 数据导出中解码看似格式错误的 Unicode 指针的 utf8 表示,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62628204/
我在将两个“相同”字符串转换为大写时遇到了一个非常奇怪的问题。该程序正在从网站读取行并将其与存储在文本文件中的行进行比较。如果未找到该行,则将其添加到文件末尾。除非该行包含特殊字符,否则这非常有效。由
我见过对象创建的各种模式,但在深入研究 Firefox 框架 Javascript 后,我注意到他们使用的是我以前从未见过的约定,我希望这里有人可以确认我的假设或纠正我: 在构建类时,我过去曾这样
多亏了我在 Oxfam 书店找到的一本小书和一本大书,我一直在研究 C、C++ 和 Allegro。我现在理解得很好,但我遇到了困难……每当我编译时,我都会遇到这些错误: archiboldian@a
也许标题可以改写得稍微好一点,但基本上我想知道 facebook 之类的公司如何实现关于新通知/消息等的“实时”界面。我知道这样一个社交网络背后的复杂性太在这个小的 SO 线程中有很多讨论,但如果有人
我想使用 R 的 C 接口(interface)编写一个 R 函数,该函数采用 2 列递增的非重叠整数间隔矩阵,并返回一个包含这些间隔加上一些附加间隔的列表,这样就没有间隙。例如,它应该取矩阵 rbi
我们的崩溃日志系统显示崩溃,我不明白它是如何发生的。用户输入未知。我已添加日志记录,但结果只有在下一个版本(约 2 周)后才能看到。 下面的代码如何抛出下一个异常: Crashes with java
我正在java1.7下使用JavaFX进行编程,除了这部分之外,所有内容都适用于我的代码。问题是,只有最终结果被写出来。当程序运行时,我希望它在标签中显示“Ping 测试正在运行”文本。但它不会这样做
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我有一个作用域枚举: enum class E { A, B, C }; 现在我想要一个函数,它接受该作用域 int 的值或 int 本身。 应该是这样的: template ::value, int
我有以下 Python 脚本: x = 300000000.0 while (x < x + x): x = x + x print "exec: " + str(x) print "
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: how does do{} while(0) work in macro? 示例来自 this博文: #de
我的问题是:“语言设计者为什么要考虑允许在不同数据类型之间进行比较?”。另外,这在功能语言中是否更有意义? 例如,在erlang中,可以执行以下比较: %% Tuples are greater th
我在玩 GHCI,遇到了这个(对我来说)奇怪的小东西。 我试过这个: λ> let fibs = 1 : 1 : zipWith (+) fibs (tail fibs) λ> fibs 只是为了看看
我们正在 Fixtures 的帮助下为我们的 Grails 2.0.0 应用程序编写集成测试。和 Buid-Test-Data插件。 在测试过程中,发现集成测试有时会失败,有时会通过。运行“test-
我目前有一个脚本应该获取并返回 Bit.ly 链接的点击次数。我首先从 Bitly url 收集和读取数据,我似乎在做正确的事情。 bitly_data = "https://api-ssl.
我正在为我的老师测试一些东西,他想看看如果我们模拟同步,下面的程序如何运行得更快(我知道它不可能完全同步,这只是为了实验学习/练习)多只 turtle 的运动。我尝试过使用诸如多处理、线程之类的模块,
所以我在一个输出大图像(从 30MB 到 2GB+ 的任何地方)的设备上工作。在我们开始创建这些图像之一之前,我们通过 GetDiskFreeSpaceEx 检查是否有足够的磁盘空间。通常(在这种情况
我正在尝试通过深入了解操作系统的底层细节来学习操作系统。我现在上的类(class)是MIT 6.828 Operating System Engineering 。该实验室要求学生追踪 BIOS 以获
我知道你不能在 Lua 中重复匹配组。例如,如果我想匹配两个连续的 "45",我不能这样做: print(string.find("some 4545 text", "(%d%d)+")) 这将打印
这是我创建的一个 plunker:http://plnkr.co/edit/ZoKsO7wu5OvCYtwEi9Iy?p=preview . 点击列表中使用 ng-repeat 渲染的项目之一,例如
我是一名优秀的程序员,十分优秀!