python - SQLAlchemy Unicode 难题-6ren

python - SQLAlchemy Unicode 难题

转载作者：行者123 更新时间：2023-11-29 03:17:11

27

4

我在使用 SQLAlchemy 处理 Unicode 时遇到了一个奇怪的问题。简而言之，当我将 Python unicode 字符串插入 Unicode 列时我的 MySQL 数据库，我可以毫不费力地将它取回。在数据库上然而，它被存储为一个奇怪的 4 字节序列(不，这个似乎与默认的“utf8mb4”没有任何关系MySQL)

我的问题是我有一个来自另一台机器的 MySQL 转储在 SQL 中包含纯 UTF8 字符。当我尝试检索从另一台机器导入的数据我得到了所有的 UnicodeDecodeErrors时间。

下面我提供了一个说明问题的最小示例。

utf8test.sql: 建立一个数据库并用 Unicode 创建一行里面的人物
utf8test.py:使用 SQLAlchemy 打开数据库，插入 1 行 Python 的 UTF 字符概念，并检索两行。

事实证明，Python 可以很好地检索它自己插入的数据，但它对我放入 SQL 导入脚本的文字 'ä' 犹豫不决。调查两个 mysqldumped 数据集的 hexdumps而MySQL本身的二进制数据文件显示UTF字符通过 SQL 插入是真正的交易(德语变音符号 'ä' = UTF 'c3 bc')，而 Python 插入的 'ä' 被转换为序列'c3 83 c2 a4' 我不明白(见下面的 hexdump；我使用 'xxx' 和 'yyy' 作为标记来帮助找到它们在 hexdump 中)。

任何人都可以阐明这一点吗？

这将创建测试数据库:

dh@jenna:~/python$ cat utf8test.sql
DROP DATABASE IF EXISTS utftest;
CREATE DATABASE utftest;
USE utftest;
CREATE TABLE x (
    id INTEGER PRIMARY KEY AUTO_INCREMENT,
        text VARCHAR(10)
        );
INSERT INTO x(text) VALUES ('xxxü');
COMMIT;
dh@jenna:~/python$ mysql < utf8test.sql

这是 Pyhton 脚本:

dh@jenna:~/python$ cat utf8test.py
# -*- encoding: utf8 -*-

from sqlalchemy import create_engine, Column, Unicode, Integer
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base

Base = declarative_base()
class X(Base):
    __tablename__ = 'x'
    id = Column(Integer, primary_key=True)
    text = Column(Unicode(10))

engine = create_engine('mysql://localhost/utftest',
    encoding='utf8')
Base.metadata.create_all(engine)
Session = sessionmaker(engine)

db = Session()
x = X(text=u'yyyä')
db.add(x)
db.commit()

rs = db.query(X.text).all()
for r in rs:
    print(r.text)

db.close()

当我运行脚本时会发生这种情况(当我运行时没有错误省略 utf8test.sql 中的 INSERT INTO 位):

dh@jenna:~/python$ python utf8test.py
Traceback (most recent call last):
  File "utf8test.py", line 23, in <module>
      rs = db.query(X.text).all()
[...]
UnicodeDecodeError: 'utf8' codec can't decode
    byte 0xfc in position 3: invalid start byte

这是一个 hexdump 以确认确实存储了两个 ä在数据库中有所不同。使用 hd 我也确认了Python 和 SQL 脚本确实是 UTF。

dh@jenna:~/python$ mysqldump utftest | hd
00000000  2d 2d 20 4d 79 53 51 4c  20 64 75 6d 70 20 31 30  |-- MySQL dump 10|
00000010  2e 31 36 20 20 44 69 73  74 72 69 62 20 31 30 2e  |.16  Distrib 10.|
00000020  31 2e 33 37 2d 4d 61 72  69 61 44 42 2c 20 66 6f  |1.37-MariaDB, fo|
00000030  72 20 64 65 62 69 61 6e  2d 6c 69 6e 75 78 2d 67  |r debian-linux-g|
00000040  6e 75 20 28 69 36 38 36  29 0a 2d 2d 0a 2d 2d 20  |nu (i686).--.-- |
[...]
00000520  4c 45 20 4b 45 59 53 20  2a 2f 3b 0a 49 4e 53 45  |LE KEYS */;.INSE|
00000530  52 54 20 49 4e 54 4f 20  60 78 60 20 56 41 4c 55  |RT INTO `x` VALU|
00000540  45 53 20 28 31 2c 27 78  78 78 c3 bc 27 29 2c 28  |ES (1,'xxx..'),(|
00000550  32 2c 27 79 79 79 c3 83  c2 a4 27 29 3b 0a 2f 2a  |2,'yyy....');./*|

最佳答案

c3 83 c2 a4 是 ä 的“双重编码”。正如 Ilja 指出的那样。进一步讨论here

http://mysql.rjweb.org/doc.php/charcoll#fixes_for_various_cases提供一个 UPDATE 来修复数据。

以下是您的 Python 中可能需要修复的事项的 list :http://mysql.rjweb.org/doc.php/charcoll#python

但这很可怕:我看到 c3 bc(ü 的 Mojibake)和 c3 83 c2 a4 (ä 的双重编码。这意味着您在同一代码中发生了两个不同的问题。回到地面零，确保您使用的是 utf8(或 utf8mb4 ) 在事物的所有阶段。您的数据库可能太困惑而无法从中恢复，因此请考虑重新开始。

可能唯一的问题是一个 python 脚本中缺少# -*- encoding: utf8 -*-。但不是。您确实需要它，但是在您使用它时发生了双重编码。

底线:您有多个错误。

关于python - SQLAlchemy Unicode 难题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53479763/

27

4

0

文章推荐： Java NullPointerException 问题

文章推荐： mysql - 创建mysql存储过程时出现1193错误

JavaScript 难题
我想将 JavaScript 函数移动到来自输入标签的标签，但它不起作用。这个有效: 这不是: function FieldOnKeyUp() { this.value=this.
puzzle - 难题:找到最小重量
我遇到了这个问题：说给定两个权重1和3，您可以权衡1,2（乘以3-1），3,4（乘以3 + 1）（使用平衡的两面）。现在找到最小的砝码数量，以便可以测量1到1000。答案是1,3,9,27 ...
我想不通的 JavaScript 难题
这是代码 war 的套路，我似乎无法弄明白。我以前从未使用过 JavaScript。我知道答案可能很简单，但即使经过许多小时的搜索，我似乎也无法弄清楚他们在寻找什么。我知道 greet 函数中的 n
java - super ()难题
在完成一项学校作业时，我有一个抽象类 Person、一个扩展 Person 的抽象类 Student 和一个扩展学生的普通类 CollegeStudent。 CollegeStudent 从文件中读取
JavaScript 赋值操作 *= 难题
下面的代码让我很头疼 var somearr = [1, 2, 3]; function operations() { for (var i
C++ const 难题
我在 3 个文件中有以下代码: Defines.h #ifndef Defines_h extern const unsigned int SIZE; #endif Defines.cpp #incl
algorithm - 在文档中查找个人信息(难题)
我的任务是尝试创建一个从文本文档中删除个人信息的自动化系统。电子邮件、电话号码相对容易删除。名字不是。这个问题很难，因为文档中有需要保留的名称(例如，引用资料、名人、人物等)。需要从内容中删除作者姓
C 难题...如何将可变参数传递给宏？
我卡在这里了... #include #define DBG_LVL(lvl, stmt) \ do{ \ if(lvl>1) printf stmt; \ }while(0) #defi
java - 用动态规划解决桥梁和 torch 难题
我正在尝试使用动态编程解决类似桥梁和 torch 的问题。有关此问题的更多信息，请参见维基百科 (http://en.wikipedia.org/wiki/Bridge_and_torch_probl
cuda - 一个小小的 CUDA 难题
我有数组 A[0...N]的 double和数组 B[0...N]的 int .每B[i]变化在 [0...P] .我只需要计算数组 C[0...P] : C[j] = SUM( A[i] : B[i
javascript - jQuery srollTop 难题
我目前在使用 jQuery 中的scrollTop() 函数时遇到困难。目前，平滑滚动功能正在滚动经过预期部分，然后在功能完成运行后弹回该部分。我在本文末尾添加了一个 jsFiddle，但这是我目前的
php strtotime 难题 - 夏令时？
PHP代码 $t = strtotime( '2012-09-21T03:00:00+00:00 America/Chicago' ); $t2 = date('c',$t); echo $t2;
haskell - 谁能解释一下这个 haskell 难题？
我知道使用 .运算符将函数链接在一起，如下所示: isLessThanZero x | x a -> a -> a 还可以看到: subtract :: Num a => a -> (a ->
php strtotime 难题 - 夏令时？
PHP代码 $t = strtotime( '2012-09-21T03:00:00+00:00 America/Chicago' ); $t2 = date('c',$t); echo $t2;
java - 另一个 NoClassDefFoundError 难题
我创建了两个 jar 文件 my.common.jar，其中包含辅助类和方法(主要是静态方法)。我还创建了一个 jar 文件 test.jar，其中包含一个 main 方法，该方法调用 my.comm
Java 难题 - 尝试在单击按钮后处理 GUI
已解决:@Desolator 已让我的代码在下面的评论中完全正常工作好的，所以我创建了 3 个类，它们都相互链接: 启动画面 > 项目分配 > CompareSignature 我想谈论的类是闪屏类
javascript - Firestore 难题!对数组和字符串使用 .where()
我正在尝试使用 firestore 的 .where() 功能来检测某个字符串是否在数据库的数组中。我曾尝试通过添加方括号和其他东西来表示数组的一部分来操纵函数的第一个参数，但无济于事。 //in t
php - 投票 SQL 难题
我有一个 PHP 系统，允许用户以 1 - 5 的范围对照片进行投票，我想要做的是突出显示两个人给彼此相同的投票/分数的地方。我目前无法弄清楚我的 PHP 函数的 SQL。数据库看起来像这样 id,
python - SQLAlchemy Unicode 难题
我在使用 SQLAlchemy 处理 Unicode 时遇到了一个奇怪的问题。简而言之，当我将 Python unicode 字符串插入 Unicode 列时我的 MySQL 数据库，我可以毫不费力地
html - 简单的 Xpath 难题
我正在尝试使用 Selenium 自动执行 Google 翻译网络界面(但无需了解 Selenium 即可理解此问题，只需要知道它会找到元素并单击它们即可)。我一直在选择要翻译的语言。我无法打开下拉

首页

博学

6Ren·AI

商城

python - SQLAlchemy Unicode 难题