gpt4 book ai didi

python - 如何 pickle unicode 并将它们保存在 utf-8 数据库中

转载 作者:太空狗 更新时间:2023-10-29 18:24:32 25 4
gpt4 key购买 nike

我有一个数据库 (mysql),我想在其中存储 pickle 数据。

例如,数据可以是字典,其中可能包含 unicode,例如

data = {1 : u'é'}

并且数据库(mysql)是utf-8。

当我 pickle 时,

import pickle
pickled_data = pickle.dumps(data)
print type(pickled_data) # returns <type 'str'>

生成的 pickled_data 是一个字符串。

当我尝试将其存储在数据库中(例如,在文本字段中)时,这可能会导致问题。特别是,我在某个时候得到了一个

UnicodeDecodeError "'utf8' codec can't decode byte 0xe9 in position X"

当试图将 pickled_data 保存在数据库中时。这是有道理的,因为 pickled_data 可以有非 utf-8 字符。我的问题是如何将 pickled_data 存储在 utf-8 数据库中?

我看到两个可能的候选人:

  1. 将 pickle.dump 的结果编码为 utf-8 并存储。当我想要 pickle.load 时,我必须对其进行解码。

  2. 以二进制格式存储 pickled 字符串(如何?),这会强制所有字符都在 ascii 内。

我的问题是,从长远来看,我没有看到选择其中一个选项会产生什么后果。由于更改已经需要一些努力,因此我迫不及待地就此问题征求意见,寻求最终更好的候选人。

(附:这在 Django 中很有用)

最佳答案

即使您使用协议(protocol)版本 0,Pickle 数据也是不透明的二进制数据:

>>> pickle.dumps(data, 0)
'(dp0\nI1\nV\xe9\np1\ns.'

当您尝试将其存储在 TextField 中时,Django 将尝试将该数据解码为 UTF8 以进行存储;这就是失败的原因,因为这不是 UTF-8 编码的数据;它是二进制数据:

>>> pickled_data.decode('utf8')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/mj/Development/venvs/stackoverflow-2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe9 in position 9: invalid continuation byte

解决方案是尝试将其存储在TextField 中。使用BinaryField相反:

A field to store raw binary data. It only supports bytes assignment. Be aware that this field has limited functionality. For example, it is not possible to filter a queryset on a BinaryField value.

您有一个 bytes 值(Python 2 字符串是字节字符串,在 Python 3 中重命名为 bytes)。

如果您坚持将数据存储在文本字段中,请将其显式解码为 latin1; Latin 1 编解码器将字节一对一映射到 Unicode 代码点:

>>> pickled_data.decode('latin1')
u'(dp0\nI1\nV\xe9\np1\ns.'

并确保在再次 unpickling 之前再次对其进行编码:

>>> encoded = pickled_data.decode('latin1')
>>> pickle.loads(encoded)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/mj/Development/Libraries/buildout.python/parts/opt/lib/python2.7/pickle.py", line 1381, in loads
file = StringIO(str)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 9: ordinal not in range(128)
>>> pickle.loads(encoded.encode('latin1'))
{1: u'\xe9'}

请注意,如果您让此值进入浏览器并在文本字段中再次返回,浏览器很可能已经替换了该数据中的字符。例如,Internet Explorer 会将 \n 字符替换为 \r\n,因为它假设它正在处理文本。

并不是说在任何情况下你都应该允许从网络连接中接受 pickle 数据,因为 that is a security hole waiting for exploitation .

关于python - 如何 pickle unicode 并将它们保存在 utf-8 数据库中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17303266/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com