- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我创建了一个包含字典的文件,其中包含用西类牙语编写的数据(即 Damián 等):
fileNameX.write(json.dumps(dictionaryX, indent=4))
数据来自一些fql抓取操作,即:
select name from user where uid in XXX
当我打开文件时,我发现,例如,“Damián”看起来像“Dami\u00e1n”。我尝试了一些选项:
ensure_ascii=假:
fileNameX.write(json.dumps(dictionaryX, indent=4, ensure_ascii=False))
但我得到一个错误(UnicodeEncodeError:'ascii' 编解码器无法编码位置 XXX 中的字符 u'\xe1':序号不在范围内(128))。
编码(encoding='latin-1):
dictionaryX.append({
'name': unicodeVar.encode(encoding='latin-1'),
...
})
但我收到另一个错误(UnicodeDecodeError:'utf8' 编解码器无法解码位置 XXX 中的字节 0xe1:无效连续字节)
总而言之,我尝试了几种可能性,但没有任何线索。我迷路了。拜托,我需要帮助。谢谢!
最佳答案
您有很多选择,并且偶然发现了一些相当复杂的东西,这取决于您的 Python 版本,并且您绝对必须完全理解才能编写正确的代码。通常 3.x 中采用的方法更严格并且更难使用,但是您犯错或陷入复杂情况的可能性要小得多。 (根据您报告的确切症状,您似乎使用的是 2.x。)
json.dumps
在 2.x 和 3.x 中有不同的行为。在 2.x 中,它产生一个 str
,这是一个字节串(未知编码)。在 3.x 中,它仍然生成一个 str
,但现在 str
在 3.x 中是一个正确的 Unicode 字符串。
JSON 本质上是一种支持 Unicode 的格式,但它希望文件采用 UTF-8 编码。但是,请理解 JSON 支持字符串中的 \u
样式转义。当您读入这些数据时,您将得到正确的编码字符串。读取代码在从 JSON 中读取字符串时会生成 unicode 对象(无论您使用 2.x 还是 3.x)。
When I open the file, I find that, for instance, "Damián" looks like "Dami\u00e1n"
á
不能用 ASCII 表示。默认情况下,它被编码为 \u00e1
,以避免您遇到的其他问题。即使在 3.x 中也会发生这种情况。
ensure_ascii=False
这会禁用之前的编码。在 2.x 中,这意味着您得到一个 unicode
对象 - 一个真正的 Unicode 对象,保留原始 á
字符。在 3.x 中,这意味着该字符未明确翻译。但无论哪种方式,ensure_ascii=False
都意味着 json.dumps
会给你一个 Unicode 字符串。
Unicode 字符串必须经过编码才能写入文件。没有“unicode 数据”这样的东西; Unicode 是一种抽象。在 2.x 中,当您将 Unicode 对象提供给 file.write
时,此编码隐式为 'ascii'
;它期待一个 str
。要解决这个问题,您可以使用 codecs
模块,或者在写入之前显式编码为 'utf-8'
。在 3.x 中,编码是在您打开
文件时使用 encoding
关键字参数设置的(默认值可能也不是您想要的)。
encode(encoding='latin-1')
在这里,您在生成字典之前进行了编码,因此您的数据中有一个 str
对象。现在出现了一个问题,因为当您的数据中有 str
对象时,JSON 编码器默认假定它们代表 Unicode 字符串在 UTF-8 编码。这可以在 2.x 中更改,使用 json.dumps
的 encoding
关键字参数。 (在 3.x 中,编码器将简单地拒绝序列化 bytes
对象,即非 Unicode 字符串!)
但是,如果您的目标只是将数据直接获取到文件中,那么 json.dumps
是不适合您的工具。您是否想知道名称中的 s
是做什么用的?它代表“字符串”;这是特例。普通的情况,其实就是直接写入文件! (而不是给你一个字符串并期望你自己写它。)这就是 json.dump
(没有's')所做的。同样,JSON 标准需要 UTF-8 编码,并且 2.x 有一个默认为 UTF-8 的 encoding
关键字参数(您应该保留它)。
关于Python 和 fql : getting "Dami\u00e1n" instead of "Damián",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12450869/
我想显示阿拉伯文字,但字符 المملك 显示。 例如,在 المملكة العربية السعودية 上显示单词 المملك٩ ا
我的应用程序正在 java + MSSQL 和 MySQL 上运行。下面的查询适用于 MSSQL,但不适用于 MySql。在 mysql 中,当我编写如下查询时,它给出了错误的结果 查询 select
根据 is_destructible 的定义( http://eel.is/c++draft/meta.unary.prop#lib:is_destructible ), is_destructib
我有一个数据库表,其中有一列我对波斯字母进行了分类,以便稍后使用 MySQL WHERE 选择。一切都适用于所有字母,但我在选择在数据库中存储为 (Ù†) 的字母 (?) 和存储为 (Ú†) 的 (?
我知道像这样的可选链接: someOptional?.someProperty 基本上是 someOptional.map { $0.someProperty } 但是,我发现同时做这两件事是不可能的
u-boot配置文件中的以下配置我看不懂 CONFIG_SYS_EXTRA_OPTIONS="SYS_SDRAM_SIZE=0x20000000" 好像在 u-boot 代码中设置 DRAM 大小。但
我对以下两个方法声明感到困惑: private T funWorks(T child, U parent) { // No compilation errors }
给定如下 API: class Bar { ... } class Foo extends Bar { ... } 在 Java 的 Optional 类型中,我们可以说: Optional fooO
我有一个文件,每行有两个字符: $ cat roman Ⅱ Ⅲ nut 当我用 sort -u 对这个文件进行排序时,只显示一行: $ sort -u roman Ⅱ Ⅱ是代码点U+2161,Ⅲ是代码
我正在尝试将 C 数组分配给 C++ std::array。 我该如何做到这一点,最干净的方式并且不制作不需要的拷贝等? 什么时候做 int X[8]; std::array Y = X; 我得到一个
我有以下案例类: case class [Q Length[T] 但是,我收到一条错误消息,说 需要三个参数,而我只给出了两个。我希望它像这样工作: type Area[T] = [Length[T
它是 well documented那个[T; n]可以强制到[T] .下面的代码也是well-formed : fn test(){ let _a: &[i32] = &[1, 2, 3];
我正在尝试使用 tweepy 在 Tkinter 窗口上显示我的 Twitter 时间线。这是代码 import tweepy import tkinter consumer_key = 'xxxxx
我正在使用以下包含 letter ü 的文本片段: test für fur test 代码如下: import re for m in re.finditer(r, line, re.IGNOREC
我对 USQL 很陌生,想知道如何在 select 语句中将“日期时间”转换为“日期”。另外,我如何摆脱毫秒和上午/下午?我真的很感激这方面的任何帮助。谢谢你们。 最佳答案 下面是有效的代码。注意括号
在 U-SQL 自定义代码(代码隐藏或程序集)中可以调用外部服务,例如bing搜索或 map 。 谢谢, 纳西尔 最佳答案 由于以下原因,目前不支持此功能: 想象一下,您编写了一个 UDF 或 UDO
我想 ping 出多个以太网端口。 u-boot 仅支持单个以太网端口是否存在固有限制? 最佳答案 Can u-boot support more than one ethernet port? 是的
我最近开始学习Prolog,但无法解决如何将三个列表合并的问题。 我能够合并两个列表: %element element(X,[X|_]). element(X,[_|Y]):-
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我们使用 Beaglebone 黑色定制板。我编辑了一个链接器脚本文件以添加内存部分以在其中记录一些信息: . = ALIGN(4); .logging : { _log_begin
我是一名优秀的程序员,十分优秀!