python - 通过 Binary Copy 将包含 PostGis 字段的数据批量加载到 PostgreSQL-6ren

python - 通过 Binary Copy 将包含 PostGis 字段的数据批量加载到 PostgreSQL

转载作者：行者123 更新时间：2023-11-29 12:23:20

总结

我有一个带有 PostgreSQL + PostGis 数据库设置的应用程序，我正在尝试将大量行加载到其中一个表中。经过一些研究，二进制复制似乎是最好的方法，但经过无数次尝试和无休止的调试，我未能实现数据的加载。

此外，我注意到这种特定方法的可用引用资料数量相当少，因此认为提出问题可以帮助 future 的开发人员。

背景

技术

应用程序后端是用 Python 3 编写的。目标数据库是本地托管的 PostgreSQL v11 数据库，扩展名为 PostGIS 2.5.3。psycopg2 适配器用于将后端连接到数据库。PPyGIS 的 ppygis3 端口仅用于较小的替代尝试，如稍后在代码中所示。

数据

尽管出于保密原因我无法共享此类数据的副本，但我可以描述该数据由地理位置(经纬度格式)、时间戳和值组成。此数据量为数百万。

方法

我已经研究了解决这个问题的潜在方法，并且出于我们对性能的考虑，使用二进制格式的 Postgres COPY 命令似乎是最明智的方法。

引用资料:

在寻找引用资料时，从 Mike T 那里找到了这个非常有用的答案。不幸的是，它只涵盖了数字类型: PostgreSQL Documentation on Copy with binary format

AlexImmer's port of PPyGIS and "example" on binary copy with WKB

NBSoftSolutions dissection on binary copy and useful example on copying strings

数据库表

该表的简化模式类似于以下内容:

POINT              TIMESTAMP                      value(Geography)        (timestamp without zone)       (real)

CREATE TABLE testtable (  point GEOGRAPHY(Point),  timestamp TIMESTAMP WITHOUT TIME ZONE,  value REAL);

Code

These are two simplified versions of my attempts at conducting the data loading.

Copy Attempt with BytesIO

The following is the approach I am mainly interested in.

con = psycopg2.connect(user=username, password=password, host="localhost", database="test")
cur = con.cursor()

# ByteIO buffer type
buffer = BytesIO()
buffer.write(pack('!11sii', b'PGCOPY\n\377\r\n\0', 0, 0))

# Dummy values
lat = 40.0
lon = 10.0
date = "2019-01-01 00:00:00"
pointStr = "POINT({} {})".format(lon, lat)
pointWKB = Point(lon, lat).write_ewkb()
value = 555.555

# Number of columns (3)
buffer.write(pack('>h', 3))

# Geographic point
# Attempt with direct encoding of the string format
buffer.write(pack('>i', len(pointStr)))
buffer.write(pointStr.encode())

# Geographic point
# Attempt using the Well-Known Binary encoding hinted by AlexsImmer
#buffer.write(pack('>i', len(pointWKB)))
#buffer.write(pointWKB)

# Timestamp
buffer.write(pack('>i', len(date)))
buffer.write(pack('>s', date.encode()))

# Reading value
buffer.write(pack('>i', 4))
buffer.write(pack('>f', reading))

# Write final file trailer
buffer.write(pack('>h', -1))

buffer.seek(0)

# Perform a bulk upload of data to the table
cur.copy_expert('COPY testtable FROM STDIN WITH BINARY', buffer)

# Also attempted 
#cur.copy_from(buffer, 'testtable', null='None')

con.commit()

cur.close()
con.close()

我猜这些问题要么与我的无知有关，要么与数据库不识别/支持以这种方式插入地理字段有关。然而令人惊讶的是，尝试使用 StringIO 方法进行相同的尝试，如下所示完美无缺。

使用 StringIO 复制尝试

我也尝试过 StringIO 方法，我已经设法使它工作，但它的性能并不令人满意。请注意，在这种情况下，PostGis 地理字段以其简化的字符串形式(即“POINT(Y X)”)传递给数据库。

con = psycopg2.connect(user=username, password=password, host="localhost", database="test")
cur = con.cursor()

# StringIO buffer type
buffer = StringIO()

# Dummy values
lat = 40.0
lon = 10.0
date = "2019-01-01 00:00:00"
point = "POINT({} {})".format(lon, lat)
value = 555.555

buffer.write(point)
buffer.write('\t')
# Timestamp of reading
buffer.write(date)
buffer.write('\t')
# Parameter reading
buffer.write(str(value))
buffer.write('\n')

# Reset offset to byte 0
buffer.seek(0)

cur.copy_from(buffer, "testtable", null='None')

con.commit()

cur.close()
con.close()

尝试使用两种方法(对 WKB 表示点的字符串表示形式进行编码)中的任何一种进行二进制复制会产生以下错误:

psycopg2.errors.InternalError_:遇到无效的字节序标志值。上下文:复制测试表，第 1 行，列地理

预期/理想的结果自然是将数百万行成功加载到数据库中。

我们将不胜感激任何意见和/或指导!

最佳答案

如果您使用二进制模式，则需要提供内部二进制表示。这是值存储在内存和磁盘中的格式。

数据通过类型输入输出函数在内部格式和外部格式之间转换。

现在您可能会想到，geometry 的内部二进制格式是 EWKB(两者的名称中都有“binary”)，我不能责怪您。但事实并非如此——EWKB 是数据的文本表示。这就是您遇到问题的原因。

如果您想使用内部二进制格式，则必须阅读 PostGIS 源代码。我认为您不使用二进制 cooy。我认为这是一个过早的优化。是什么让您认为您的代码比 PostGIS 的类型输入功能更高效？除此之外，如果客户端架构与服务器架构不同，您就会面临危险:您能确定它们以相同的方式表示 8 字节浮点值吗？

关于python - 通过 Binary Copy 将包含 PostGis 字段的数据批量加载到 PostgreSQL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57822498/

文章推荐： sql - 如何设置 SSIS 以从 Postgres 数据库中提取数据

c# - List 包含 List 包含 List
我有一个类似于以下的结构。 class A { string title; List bItem; } class B { int pric

webrtc - 为什么 localStreams 包含 LocalMediaStream 而 remoteStreams 包含 MediaStream？
本地流和远程流两者都是“媒体流列表 ”。本地流包含“本地媒体流 ” 对象但是，远程流包含“媒体流 ” 对象为什么差别这么大？当我使用“本地流 “- 这个对我有用: localVide

excel - 如果单元格 1 包含 X，则单元格 2 应等于 W，如果单元格 1 包含 Z，则查看下一个标准
我正在尝试将 8 列虚拟变量转换为 8 级排名的一列。我试图用这个公式来做到这一点: =IF(OR(A1="1");"1";IF(OR(B1="1");"2";IF(OR(C1="1");"3";I

python - 对象 A 包含对象 B1 和 B2，B1 包含 C，包含 D。让 D 更改 B2 中某些内容的最佳方式是什么？
我正在使用面向对象编程在 Python 中创建一个有点复杂的棋盘游戏的实现。我的问题是，许多这些对象应该能够与其他对象交互，即使它们不包含在其中。例如Game是一个对象，其中包含PointTrac

jQuery 包含
有没有办法获取与 contains 语句匹配的最深元素？基本上，如果我有嵌套的 div，我想要最后一个元素而不是父元素: Needle $("div:contains('Needle')")

SQL 包含 - 仅在开始时匹配
出于某种原因，我无法在 Google 上找到答案!但是使用 SQL contains 函数我怎么能告诉它从字符串的开头开始，即我正在寻找等同于的全文喜欢 'some_term%'。我知道我可以使用

包含 3 个或更多元音的正则表达式字符串
我正在尝试创建一个正则表达式来匹配具有 3 个或更多元音的字符串。我试过这个: [aeiou]{3,} 但它仅在元音按顺序排列时才有效。有什么建议吗？例如: 塞缪尔 -> 有效琼 -> 无效 S

Linq 包含 where 子句
嘿所以我遇到了这样的情况，我从数据库中拉回一个客户，并通过包含的方式包含所有案例研究 return (from c in db.Clients.Include("CaseStudies")

javascript - 包含()不为子字符串返回true
如果关键字是子字符串，我无法弄清楚为什么这个函数不返回结果。 const string = 'cake'; const substring = 'cak'; console.log(string.in

jQuery 如果 "this"包含
我正在尝试将包含特定文本字符串的任何元素更改为红色。在我的示例中，我可以将子元素变为蓝色，但是我编写“替换我”行的方式有些不正确；红色不会发生变化。我注意到“contains”方法通常写为 :cont

php - 包含，需要语法错误文件
我想问一下我是否可以要求/包含一个语法错误的文件，如果不能，则require/include返回一个值，这样我就知道所需/包含的文件存在语法错误并且不能被要求/包含？ file.php语法错误 inc

jquery - 使用jQuery将rel添加到youtube链接中:包含
我想为所有包含youtube链接的链接添加一个rel。这就是我正在使用的东西-但它没有用。有任何想法吗？ $('a [href:contains(“youtube.com”)]')。attr('re

elasticsearch - 包含/的elasticsearch查询字符串
我正在尝试在 Elasticsearch 中查询。除搜索中出现“/”外，此功能均正常运行。查询如下所示 GET styling_rules/product_line_filters/_search {

c# - 使用elasticsearch进行搜索(包含)
我正在开发名为eBookRepository的ASP.NET MVC应用程序，其中包含在线图书。电子书具有自己的标题，作者等。因此，现在我正在尝试实现搜索机制。我必须使用Elasticsearch作

Firebase 规则 : What is . 包含()？
我已阅读Firebase Documentation并且不明白什么是 .contains()。以下是文档中 Firebase 数据库的示例规则: { "rules": { "rooms"

cakephp 包含 - 条件
我的问题是我可以给出条件[ 'BookTitleMaster.id' => $xtitid, ] 如下所示 $bbookinfs = $this->BookStockin->BookIssue->fi

c# - 包含 "|"的正则表达式
我需要能够使用 | 检查模式在他们中。例如，对于像“dtest|test”这样的字符串，像 d*|*t 这样的表达式应该返回 true。我不是正则表达式英雄，所以我只是尝试了一些事情，例如: Reg

javascript - 包含 "not"的正则表达式不起作用
我想创建一个正则表达式来不匹配某些单词... 我的字符:var test = "é123rr;and;ià456;or;456543" 我的正则表达式:test.match(\((?!and)(?!o

XSLT:包含()多个字符串
我在 XSLT 中有一个名为 variable_name 的变量，如果相关产品具有名称为 A 或 B 或两者均为 A & 的属性，我将尝试将其设置为 1 B.

uml - 包含/扩展的用例可以由另一个参与者发起吗？
您好，我想让接待员和经理能够查看工作类型和费率并随后进行更新。但是技术人员只能查看不能更新。该图是否有效？我读到扩展用例是由发起基本用例的参与者发起的。我应该如何区分技术人员只能启动基本案例而不能启

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

JVM实战—1.Java代码的运行原理

ThreeJs-083D动画系统详解

命令模式

3款.NET开源、功能强大的通讯调试工具，效率提升利器！

《痞子衡嵌入式半月刊》第115期

为什么Llama3.370B比GPT-4o和Claude3.5Sonnet更优秀

Powercat无文件落地执行技巧，你确定不进来看看？

实现同步，临界区问题，锁和信号量的实现

关于Jetsonnano(B02)如何部署Yolov8以及一些必要的知识点

哪里有class告诉我？

首页

博学

6Ren·AI

商城