python - psycopg2.DataError : invalid byte sequence for encoding "UTF8": 0xa0-6ren

python - psycopg2.DataError : invalid byte sequence for encoding "UTF8": 0xa0

转载作者：太空狗更新时间：2023-10-29 21:37:16

26

4

我已经对这个错误进行了大量的谷歌搜索，并将其归结为我正在使用的数据库采用不同的编码这一事实。

我正在使用的 AIX 服务器正在运行

psql 8.2.4

 server_encoding                 | LATIN1          |      | Client Connection Defaults / Locale and Formatting                | Sets the server (database) character set encoding.

我正在使用的 windows 2008 R2 服务器正在运行

psql (9.3.4)

CREATE DATABASE postgres
WITH OWNER = postgres
   ENCODING = 'UTF8'
   TABLESPACE = pg_default
   LC_COLLATE = 'English_Australia.1252'
   LC_CTYPE = 'English_Australia.1252'
   CONNECTION LIMIT = -1;

COMMENT ON DATABASE postgres
IS 'default administrative connection database';

现在，当我尝试执行下面的 python 脚本时，出现此错误

Traceback (most recent call last):
File "datamain.py", line 39, in <module>
sys.exit(main())
File "datamain.py", line 33, in main
write_file_to_table("cms_jobdef.txt", "cms_jobdef", con_S104838)
File "datamain.py", line 21, in write_file_to_table
cur.copy_from(f, table, ",")
psycopg2.DataError: invalid byte sequence for encoding "UTF8": 0xa0
CONTEXT:  COPY cms_jobdef, line 15209

这是我的脚本

import psycopg2
import StringIO
import sys
import pdb

def connect_db(db, usr, pw, hst, prt):
    conn = psycopg2.connect(database=db, user=usr,
    password=pw, host=hst, port=prt)
    return conn

def write_table_to_file(file, table, connection):
    f = open(file, "w")
    cur = connection.cursor()
    cur.copy_to(f, table, ",")
    f.close()
    cur.close()

def write_file_to_table(file, table, connection):
    f = open(file,"r")
    cur = connection.cursor()
    cur.copy_from(f, table, ",")
    f.close()
    cur.close()

def main():
    login = open('login.txt','r')
    con_tctmsv64 = connect_db("x", "y",
    login.readline().strip(),
    "d.domain", "c")
    con_S104838 = connect_db("x", "y", "z", "a", "b")
    try:
        write_table_to_file("cms_jobdef.txt", "cms_jobdef", con_tctmsv64)
        write_file_to_table("cms_jobdef.txt", "cms_jobdef", con_S104838)
    finally:
        con_tctmsv64.close()
        con_S104838.close()

if __name__ == "__main__":
    sys.exit(main())

已删除一些敏感数据。

所以我不确定我该如何继续。据我所知 copy_expert方法可能有助于导出为 UTF8 编码。但是因为我从中提取数据的服务器正在运行 8.2.4 我认为它不支持 COPY编码格式。

我认为我最好的办法是尝试在 Windows 服务器上重新安装编码为 LATIN1 的 postgre 数据库。当我尝试这样做时，出现以下错误。

psql error

所以我很困，任何帮助将不胜感激!

更新我通过将默认本地设置更改为“C”，将 postgre 数据库安装在 Windows 上作为 LATIN1 编码。然而，这给了我以下错误，并且看起来不太可能是成功/正确的方法

enter image description here

我还尝试使用 PSQL COPY 将文件编码为 BINARY功能

def write_table_to_file(file, table, connection):
    f = open(file, "w")
    cur = connection.cursor()
    #cur.copy_to(f, table, ",")
    cur.copy_expert("COPY cms_jobdef TO STDOUT WITH BINARY", f)
    f.close()
    cur.close()

def write_file_to_table(file, table, connection):
    f = open(file,"r")
    cur = connection.cursor()
    #cur.copy_from(f, table)
    cur.copy_expert("COPY cms_jobdef FROM STDOUT WITH BINARY", f)
    f.close()
    cur.close()

仍然没有运气，我得到了同样的错误

DataError: invalid byte sequence for encoding "UTF8": 0xa0
CONTEXT:  COPY cms_jobdef, line 15209, column descript

关于菲尔斯的回答，我已经尝试过这种方法，但仍然没有成功。

import psycopg2
import StringIO
import sys
import pdb
import codecs

def connect_db(db, usr, pw, hst, prt):
    conn = psycopg2.connect(database=db, user=usr,
    password=pw, host=hst, port=prt)
    return conn

def write_table_to_file(file, table, connection):
    f = open(file, "w")
    #fx = codecs.EncodedFile(f,"LATIN1", "UTF8")
    cur = connection.cursor()
    cur.execute("SHOW client_encoding;")
    print cur.fetchone()
    cur.copy_to(f, table)
    #cur.copy_expert("COPY cms_jobdef TO STDOUT WITH BINARY", f)
    f.close()
    cur.close()

def write_file_to_table(file, table, connection):
    f = open(file,"r")
    cur = connection.cursor() 
    cur.execute("SET CLIENT_ENCODING TO 'LATIN1';")
    cur.execute("SHOW client_encoding;")
    print cur.fetchone()
    cur.copy_from(f, table)
    #cur.copy_expert("COPY cms_jobdef FROM STDOUT WITH BINARY", f)
    f.close()
    cur.close()

def main(): 
    login = open('login.txt','r')
    con_tctmsv64 = connect_db("x", "y",
    login.readline().strip(),
    "ctmtest1.int.corp.sun", "5436")
    con_S104838 = connect_db("x", "y", "z", "t", "5432")
    try:
        write_table_to_file("cms_jobdef.txt", "cms_jobdef", con_tctmsv64)
        write_file_to_table("cms_jobdef.txt", "cms_jobdef", con_S104838)
    finally:
        con_tctmsv64.close()
        con_S104838.close()

if __name__ == "__main__":
    sys.exit(main())

输出

In [4]: %run datamain.py
('sql_ascii',)
('LATIN1',)

In [5]:

这成功完成了，但是当我运行

select * from cms_jobdef;

新数据库中没有任何内容

enter image description here

我什至尝试过将文件格式从 LATIN1 转换为 UTF8。仍然没有运气

奇怪的是，当我仅使用 postgre COPY 手动执行此过程时它起作用的功能。我不知道为什么。再次感谢您的帮助。

最佳答案

原来有几个选项可以解决这个问题。

Phil 建议的更改客户端编码的选项确实有效。

cur.execute("SET CLIENT_ENCODING TO 'LATIN1';")

另一种选择是动态转换数据。我使用了一个名为 codecs 的 python 模块来执行此操作。

f = open(file, "w")
fx = codecs.EncodedFile(f,"LATIN1", "UTF8")
cur = connection.cursor()
cur.execute("SHOW client_encoding;")
print cur.fetchone()
cur.copy_to(fx, table)

关键是

fx = codecs.EncodedFile(f,"LATIN1", "UTF8")

我的主要问题是我没有将更改提交到数据库!傻我:)

关于python - psycopg2.DataError : invalid byte sequence for encoding "UTF8": 0xa0，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24176271/

26

4

0

文章推荐： c++ - OpenCV inRange() 函数

文章推荐： c# - Visual Studio 2008 的圈复杂度

文章推荐： c++ - 在 C++11 环境中使用 VLA

文章推荐： c# - 什么时候在 Linq 中调用 OnValidate？

java - 如何获取给定数据源的给定连接是 xa 还是非 xa？
使用此代码我无法获得 xa 或非 xa 的连接 DatabaseMetaData dbmd = con.getMetaData(); dbmd.getDriverName(); System.out.
java - 我们可以在存储库层中使用一个 XA 资源和两个非 XA 资源吗
我们可以在同一存储库类中使用 xa 和非 xa 资源的组合吗？如果可以的话，有人可以解释一下它的行为方式以及交易将如何进行吗？目前，我们在存储库中使用 2 个 xa 资源和 2 个非 xa 资源。我们
java - 何时使用 XA 数据源和非 XA 数据源
我试图了解 Java XA 数据源的使用。但我仍然不知道何时使用它，何时不使用它。我读到当我们使用两个数据库时使用 XA 数据源。但我不确定两个数据库是什么意思。例如: 我有两层类(Service
mysql - XA 与非 XA JDBC 驱动程序性能？
我们在不需要的情况下使用 XA JDBC 驱动程序(不参与分布式事务的只读工作)。只是想知道是否有任何已知的性能提升必须切换到非 XA JDBC 驱动程序 - 如果没有，它可能不值得切换？ FWIW
java - 我需要 XA 交易吗？ DefaultMessageListenerContainer 本地事务与 XA 连接工厂
在我的 Spring Boot 应用程序中，我有以下场景: 从 JMS 队列读取消息利用数据做一些事情。对 Oracle 数据库执行 JDBC 插入如果在任何阶段发生异常，我希望确保消息不会丢失
jms - JMS 和 DB 操作的 XA 或非 XA
我对 XA 和非 XA 世界还很陌生。我的要求是从队列中读取一条消息，直到没有消息为止。对于队列中的每条消息，转到数据库并执行一些事务，例如选择、插入、更新。是否可以使用非 XA 数据源实现此目的？
python - 运行时警告: Invalid value encountered in less xa[xa < 0] = -1 (Geopandas)
问题我正在尝试使用geopandas绘制每个地区的犯罪数据。我已合并 shapefile 数据和犯罪数据: merged = merged[['geometry','Extortion']] mer
java - JBoss 7.0.1 xa 数据源异常。 javax.transaction.xa.XAException
我使用两个单独的数据源。使用 EJB3.0，我使用的是 non-Xa-datasources。我遇到这样的错误:无法打开连接，状态感知对象。这是因为在一个无状态 bean 中我调用了第二个无状态 be
java - oracle.jdbc.xa.OracleXADataSource 和 oracle.jdbc.xa.client.OracleXADataSource 之间的区别
oracle.jdbc.xa.OracleXADataSource 和 oracle.jdbc.xa.client.OracleXADataSource 黑白有什么区别，我知道两者都是 XA 兼容的
spring - XA 事务和消息总线
在我们的新项目中，我们希望实现涉及 jpa (mysql) 和消息总线 (rabbitmq) 的事务我们开始使用 mysql 和 rabbitmq(通过 spring amqp 模块)使用 spri
mysql XA 提交
在 mysql 重新启动时提交 XA 待处理事务时，出现以下错误。请帮助我解决这个错误。 mysql> XA RECOVER CONVERT XID; +----------+------------
mysql - XA 数据源和驾驶舱
我将两个 XA 数据源用于 EAP7 和 MySQL。应用程序正在运行，但在调用驾驶舱后抛出了很多异常。 7.5 版中的 Camunda 两者的配置相同。 (由红帽 EAP Docker 镜像生成)
Mysql XA 隔离级别
有谁知道为什么 Mysql 需要可序列化隔离级别来实现 XA 事务的 ACID 属性，或者如果使用可重复读取和 XA 会丢失什么？ However, for a distributed transac
java - XA 事务中的数据一致性
假设我们有一个数据库(例如 Oracle)和一个 JMS 提供者(例如 HornetQ)参与 XA 事务。一条消息被发送到一个 JMS 队列，并且一些数据在同一个分布式事务中保存在数据库中。事务提交后
jdbc - EJB、XA 事务和错误处理
我们认为这是一个相当常见的 XA 用例: 从队列中读取消息将一些数据写入数据库向出队列(与入队列不同)写入响应消息然而，我们还需要一种方法来处理内部错误和有害消息。我们想到的控制流程是这样的:
java - 更好地理解 XA 数据源
我想在 2 个不同位置的数据库中分离 2 个表...因此 1 个 MySQL 数据库位于一个数据中心，另外 1 个位于另一个数据中心。我在 Wildfly 中使用普通数据源，并使用 JPA 连接到
java - 在两阶段提交事务中使用非 XA 数据源时抛出异常
我的 Websphere 应用程序有 3 个数据源。其中两个是 XA，另一个是非 XA。我通过使用 @transactional 注释对方法进行注释，使 Java 方法具有事务性。在该方法中，执行
java - XA 感知数据结构(非数据库)
背景知识:我遇到了一个问题，我越深入地研究它，就越发现 XA 似乎是正确的解决方案。我有一个“缓存”，它基本上是一个内存数据结构(树形结构)，用于保存一些处理过的信息。使用Spring，我们设置了数据
php - 普通事务和 XA 事务有什么区别？
我有一个关于 this 的问题假设我有一些联系 $conn_site = mysqli_connect("localhost", "us", "ps"); mysqli_select_db("sit
mysql - 服务器崩溃后如何提交 XA 事务
我在 Mint 18 上使用 MySQL 5.7.19-0ubuntu0.16.04.1。我发现当我准备 XA 事务时，然后服务器崩溃了。服务重启后，我就不能再碰交易了。它仍然锁定了 table 。

首页

博学

6Ren·AI

商城

python - psycopg2.DataError : invalid byte sequence for encoding "UTF8": 0xa0