python - 如何在 Python 和 Postgres 中处理批量数据库导入中的重音字符-6ren

python - 如何在 Python 和 Postgres 中处理批量数据库导入中的重音字符

转载作者：行者123 更新时间：2023-11-29 12:22:55

在 Python (openblock) 中运行批量导入脚本时，我得到以下用于编码“UTF8”的无效字节序列:重音字符的 0xca4e 错误:

它显示为:GRAND-CH?NE, COUR DU

但实际上是“GRAND-CHÊNE, COUR DU”

处理此问题的最佳方法是什么？理想情况下，我想保留重音字符。我怀疑我需要以某种方式对其进行编码？

编辑:？实际上应该是Ê。另请注意，该变量来自 ESRI Shapefile。当我尝试 davidcrow 的解决方案时，我得到“不支持 Unicode”，因为可能没有重音字符的字符串已经是 Unicode 字符串。

这是我正在使用的 ESRIImporter 代码:

from django.contrib.gis.gdal import DataSource

class EsriImporter(object):
    def __init__(self, shapefile, city=None, layer_id=0):
        print >> sys.stderr, 'Opening %s' % shapefile
        ds = DataSource(shapefile)

        self.layer = ds[layer_id]
        self.city = "OTTAWA" #city and city or Metro.objects.get_current().name
        self.fcc_pat = re.compile('^(' + '|'.join(VALID_FCC_PREFIXES) + ')\d$')

    def save(self, verbose=False):
        alt_names_suff = ('',)
        num_created = 0
        for i, feature in enumerate(self.layer):
            #if not self.fcc_pat.search(feature.get('FCC')):
            #    continue
            parent_id = None
            fields = {}
            for esri_fieldname, block_fieldname in FIELD_MAP.items():
                value = feature.get(esri_fieldname)
                #print >> sys.stderr, 'Looking at %s' % esri_fieldname

                if isinstance(value, basestring):
                    value = value.upper()
                elif isinstance(value, int) and value == 0:
                    value = None
                fields[block_fieldname] = value
            if not ((fields['left_from_num'] and fields['left_to_num']) or
                    (fields['right_from_num'] and fields['right_to_num'])):
                continue
            # Sometimes the "from" number is greater than the "to"
            # number in the source data, so we swap them into proper
            # ordering
            for side in ('left', 'right'):
                from_key, to_key = '%s_from_num' % side, '%s_to_num' % side
                if fields[from_key] > fields[to_key]:
                    fields[from_key], fields[to_key] = fields[to_key], fields[from_key]
            if feature.geom.geom_name != 'LINESTRING':
                continue
            for suffix in alt_names_suff:
                name_fields = {}
                for esri_fieldname, block_fieldname in NAME_FIELD_MAP.items():
                    key = esri_fieldname + suffix
                    name_fields[block_fieldname] = feature.get(key).upper()
                    #if block_fieldname == 'postdir':
                        #print >> sys.stderr, 'Postdir block %s' % name_fields[block_fieldname]


                if not name_fields['street']:
                    continue
                # Skip blocks with bare number street names and no suffix / type
                if not name_fields['suffix'] and re.search('^\d+$', name_fields['street']):
                    continue
                fields.update(name_fields)
                block = Block(**fields)
                block.geom = feature.geom.geos
                print repr(fields['street'])
                print >> sys.stderr, 'Looking at block %s' % unicode(fields['street'], errors='replace' )

                street_name, block_name = make_pretty_name(
                    fields['left_from_num'],
                    fields['left_to_num'],
                    fields['right_from_num'],
                    fields['right_to_num'],
                    '',
                    fields['street'],
                    fields['suffix'],
                    fields['postdir']
                )
                block.pretty_name = unicode(block_name)
                #print >> sys.stderr, 'Looking at block pretty name %s' % fields['street']

                block.street_pretty_name = street_name
                block.street_slug = slugify(' '.join((unicode(fields['street'], errors='replace' ), fields['suffix'])))
                block.save()
                if parent_id is None:
                    parent_id = block.id
                else:
                    block.parent_id = parent_id
                    block.save()
                num_created += 1
                if verbose:
                    print >> sys.stderr, 'Created block %s' % block
        return num_created

输出:

'GRAND-CH\xcaNE, COUR DU'
Looking at block GRAND-CH�NE, COUR DU
Traceback (most recent call last):

  File "../blocks_ottawa.py", line 144, in <module>
    sys.exit(main())
  File "../blocks_ottawa.py", line 139, in main
    num_created = esri.save(options.verbose)
  File "../blocks_ottawa.py", line 114, in save
    block.save()
  File "/home/chris/openblock/src/django/django/db/models/base.py", line 434, in save
    self.save_base(using=using, force_insert=force_insert, force_update=force_update)
  File "/home/chris/openblock/src/django/django/db/models/base.py", line 527, in save_base
    result = manager._insert(values, return_id=update_pk, using=using)
  File "/home/chris/openblock/src/django/django/db/models/manager.py", line 195, in _insert
    return insert_query(self.model, values, **kwargs)
  File "/home/chris/openblock/src/django/django/db/models/query.py", line 1479, in insert_query
    return query.get_compiler(using=using).execute_sql(return_id)
  File "/home/chris/openblock/src/django/django/db/models/sql/compiler.py", line 783, in execute_sql
    cursor = super(SQLInsertCompiler, self).execute_sql(None)
  File "/home/chris/openblock/src/django/django/db/models/sql/compiler.py", line 727, in execute_sql
    cursor.execute(sql, params)
  File "/home/chris/openblock/src/django/django/db/backends/util.py", line 15, in execute
    return self.cursor.execute(sql, params)
  File "/home/chris/openblock/src/django/django/db/backends/postgresql_psycopg2/base.py", line 44, in execute
    return self.cursor.execute(query, args)

django.db.utils.DatabaseError: invalid byte sequence for encoding "UTF8": 0xca4e
HINT:  This error can also happen if the byte sequence does not match the encoding expected by the server, which is controlled by "client_encoding".

最佳答案

请提供更多信息。什么平台 - Windows/Linux/???

什么版本的 Python？

如果您运行的是 Windows，则您的编码更有可能是 cp1252 或类似ISO-8859-1。绝对不是 UTF-8。

您将需要:(1) 找出输入数据的编码方式。试试 cp1252；这是通常的嫌疑人。 (2) 将您的数据解码为 unicode (3) 将其编码为 UTF-8。

您如何从 ESRI shapefile 中获取数据？显示你的代码。显示完整的回溯和错误消息。为避免视觉问题(它是 E-grave!不，它是 E-acute!)print repr(the_suspect_data) 并将结果复制/粘贴到您的问题的编辑中。大胆使用粗体字。

关于python - 如何在 Python 和 Postgres 中处理批量数据库导入中的重音字符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4362716/

文章推荐： sql - Oracle:在 PostgreSQL 中有与 ROW 等价的东西吗？

文章推荐： sql - 如何用sql选择随机试用？ (伯努利试验)

文章推荐： python - 从表中选择数据并插入到不同的数据库中

文章推荐： php - 左连接mysql多表id并以JSON形式显示名称

postgres-xl - 在单机配置上设置 Postgres-XL
我想知道这里是否有人有安装 Postgres-XL 的经验，新的开源多线程版本的 PostgreSQL。我计划将一组 1-2 TB 的数据库从常规 Postgres 9.3 迁移到 XL，并且想知道这
postgresql - postgres 备份脚本不是 postgres 用户
我想创建一个 postgres 备份脚本，但我不想使用 postgres 用户，因为我所在的 unix 系统几乎没有限制。我想要做的是在 crontab 上以 unix 系统(网络)的普通用户身份运行
node-postgres - 在 node-postgres 中使用字符串文字进行参数化查询
我正在尝试编写一个 node-postgres 查询，它采用一个整数作为参数在间隔中使用: const query = { text: `SELECT foo
postgresql - 如何从命令行停止 (postgres.app) postgres 集群
如何在不使用 gui 的情况下停止特定的 Postgres.app 集群。我想使用 bash/Terminal.app 而不是 gui 我还应该指出，Postgres 应用程序有一个这样的菜单如果
security - 在 POSTGRES 数据库中为 'postgres' 用户添加密码是个好主意吗？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
postgresql - Postgres docker "User "postgres“没有分配密码。”
我正在使用 docker 运行 Postgres 图像。它曾经在 Windows10 和 Ubuntu 18.04 上运行没有任何问题。在 Ubuntu 系统上重新克隆项目后，它在运行 docker
python - 从另一个 postgres 表更新一个 postgres 表
我正在使用 python(比如表 A)将批处理 csv 文件加载到 postgres。我正在使用 pandas 将数据上传到更快的 block 中。 for chunk in pd.read_csv(
postgresql - 在源 Postgres 服务器离线时迁移 Postgres DB
所以是的，标题说明了一切，我需要以某种方式将 DB 从源服务器获取到新服务器，但更重要的是旧服务器正在崩溃 :P 有什么方法可以将它全部移动到新服务器并导入它？旧服务器只是拒绝再运行 Postgre
postgresql - Postgres systemd 单元文件如何确定要运行的 Postgres 版本？
这主要是出于好奇而提出的问题。我正在浏览 Postgres systemd 单元文件，以了解 systemd 可以做什么。 Postgres 有两个 systemd 单元文件。一个用于代替 syste
postgresql - 为什么 Postgres 不要求用户 postgres 的密码？
从我在 pg_hba.conf 中读到的内容，我推断，为了确保提示我输入 postgres 用户的密码，我应该从当前的“对等”编辑 pg_hba.conf 的前两个条目的方法'到'密码'或'md5'，
sql - Postgres : user mapping not found for "postgres"
我已连接到架构 apm。尝试执行函数并出现以下错误: ERROR: user mapping not found for "postgres" 数据库连接信息说: apm on postgres@
postgresql - 无法创建用户 postgres : role "postgres" does not exists
我在 ubuntu 12.04 服务器上，我正在尝试安装 postgresql。截至目前，我已成功安装它但无法配置它。我需要创建一个角色才能继续前进，我在终端中运行了这个命令: root@hostna
database - 无法以 'postgres' 用户身份登录到 'postgres' 数据库
我无法以“postgres”用户身份登录到“postgres”数据库。操作系统:REHL 服务器版本 6.3PostgreSQL 版本:8.4有一个数据库“jiradb”用作 JIRA 6.0.8 的
postgresql - 在 docker postgres 容器中导入 postgres 数据库
我正在尝试将现有数据库导入 postgres docker 容器。这就是我的处理方式: docker run --name pg-docker -e POSTGRES_PASSWORD=*****
postgresql - 重新启动 postgres 后使用 Grails 自动重新连接到 postgres
我们的 Web 应用程序在 postgres 9.3 和 Grails 2.5.3 上运行。当我们重新启动 postgres (/etc/init.d/postgresql restart) 并访问网
postgresql - 如何将现有的 postgres 数据文件夹复制和使用到 docker postgres 容器中
我想构建 postgres docker 容器来测试一些问题。我有: postgres 文件的归档文件夹(/var/lib/postgres/data/) 将文件夹放入 docker postgres
postgresql - 如何将 postgres json 列表转换为全小写的 postgres 数组
我有一个名为“stuff”的表，其中有一个名为“tags”的 json 列，用于存储标签列表，还有一个名为“id”的列，它是表中每一行的主键。我正在使用 postgres 数据库。例如，一行看起来像这
python - postgres 中的锁定机制/postgres 中的死锁。 [我正在使用 sqlalchemy]
我对 sqlalchemy-psql 中的锁定机制是如何工作的感到非常困惑。我正在运行一个带有 sqlalchemy 和 postgres 的 python-flask 应用程序。由于我有多个线程处理
sql - Postgres 函数比查询/Postgres 8.4 慢
我(必须)使用 Postgres 8.4 数据库。在这个数据库中，我创建了一个函数: CREATE OR REPLACE FUNCTION counter (mindate timestamptz,m
linux - Postgres : psql: FATAL: role "postgres" does not exist
我已经使用 PostgreSQL 几天了，它运行良好。我一直在通过默认的 postgres 数据库用户和另一个具有权限的用户使用它。今天中午(在一切正常之后)它停止工作，我再也无法回到数据库中。我会

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何在 Python 和 Postgres 中处理批量数据库导入中的重音字符