python - 我如何将数据从数据框(在 python 中)插入到 greenplum 表？-6ren

python - 我如何将数据从数据框(在 python 中)插入到 greenplum 表？

转载作者：行者123 更新时间：2023-11-28 22:22:51

25

4

问题陈述:

我有多个 csv 文件。我正在使用 python 清理它们并使用 bcp 将它们插入 SQL Server。现在我想将其插入 Greenplum 而不是 SQL Server。请建议一种直接从 python 数据框批量插入 greenplum 表到 GreenPlum 表的方法。

解决方案:(我能想到的)

我能想到的方式是 CSV-> Dataframe -> Cleainig -> Dataframe -> CSV -> 然后使用 Gpload 进行批量加载。并将其集成到Shell脚本中实现自动化。有没有人有好的解决方案。

将数据直接从数据帧加载到 gp 表时出现问题:

作为 gpload 请求文件路径。我可以将变量或数据框传递给它吗？有什么方法可以批量加载到 greenplum 中吗？我不想从数据帧创建 csv 或 txt 文件，然后将其加载到 greenplum。

最佳答案

我会使用 psycopg2 和 io 库来执行此操作。 io 是内置的，您可以使用 pip(或 conda)安装 psycopg2。

基本上，您将数据帧写入 csv 格式的字符串缓冲区(“内存文件”)。然后使用 psycopg2 的 copy_from 函数将其批量加载/复制到您的表中。

这应该让你开始:

import io
import pandas
import psycopg2

# Write your dataframe to memory as csv
csv_io = io.StringIO()
dataframe.to_csv(csv_io, sep='\t', header=False, index=False)
csv_io.seek(0)


# Connect to the GreenPlum database.
greenplum = psycopg2.connect(host='host', database='database', user='user', password='password')
gp_cursor = greenplum.cursor()

# Copy the data from the buffer to the table.
gp_cursor.copy_from(csv_io, 'db.table')
greenplum.commit()

# Close the GreenPlum cursor and connection.
gp_cursor.close()
greenplum.close()

关于python - 我如何将数据从数据框(在 python 中)插入到 greenplum 表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47429651/

25

4

0

文章推荐： python - 如何在缩略图库中制作可点击的 kivy 图像

文章推荐： tomcat hbase jar 包含

文章推荐： java - 如何从 tomcat 网站访问 JMX Mbean？

文章推荐： gwt - 文件路径 gwt 应用程序托管模式

greenplum - 如何增加 greenplum 并发度和每秒查询数
我们有一个相当大的 Greenplum v4.3 集群。 18台主机，每台主机有3个segment节点。每台主机大约有40个核心和60G内存。我们的表有 30 列宽，有 1 亿行。我们正在测试的查询
greenplum - 什么时候应该使用 Greenplum 数据库而不是 HAWQ？
我们有零售行业数据的用例。我们正在制作 EDW。我们目前正在从 HAWQ 进行报告。但是我们想将我们的 MPP 数据库从 Hawq 转移到 Greenplum。基本上，我们想对当前的数据管道进行更改
greenplum - 提示错误 :Setting Up Greenplum command center web Application with centos 6. 5
我们有小型 gpdb 集群。在那里，我们正在尝试设置 Greenplum 指挥中心门户网站。环境是产品 |版本 Pivotal Greenplum (GPDB) 4.3.x Pivotal Gre
linux - Greenplum 安全 : How do i setup Password-less Login: Windows (via Putty) to Linux(greenplum master machine-centos6. 5) 在 gpdb 集群中
我们有小型 GPDB 集群阵列。我们最近升级了 GPDB 并配置了 GCC 门户网站。在那，我们注意到我们的机器在 SSH 时仍然显示密码。我们尝试在 greenplum 机器上执行以下文档命令:
hadoop - Greenplum PXF是否支持HDFS短路读取？
我想知道当我们将pxf和datanode放在同一主机上时，Greenplum PXF是否可以利用HDFS短路读取的优势。我们进行了初步测试，但是，pxf似乎没有利用短路读数。谷歌搜索后几乎没有任何东
hadoop - greenplum hadoop在greenplum中如何配置生成gphdfs.so
在greenplum中如何配置生成gphdfs.so？当我 postgres=# CREATE EXTERNAL TABLE csv_hdfs_lineitem (like a) LOCATION (
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - DISTRIBUTE BY Greenplum 中的通知
假设我在 psql 上运行以下查询: > select a.c1, b.c2 into temp_table from db.A as a inner join db.B as b > on a.x
sql - 在 Greenplum 中实现公用表表达式
有没有办法强制 Greenplum PostgreSQL 在 WITH 子句中具体化子查询，例如 MATERIALIZE 和 INLINE optimizer hints在 Oracle 中执行以下操
postgresql - 在 Greenplum 上分块执行查询
我正在尝试创建一种将批量日期查询转换为增量查询的方法。例如，如果查询将 where 条件指定为 WHERE date > now()::date - interval '365 days' and d
postgresql - GreenPlum 子字符串 - 获取长文本的一部分
假设我有一个很长的 URL xyz = 'www.google.com/xyz?para1=value1¶2=value2¶3=value3....' 我正在尝试从这个长 URL 中获
postgresql - Greenplum:无法删除/截断表
我在 Greenplum(4.3.5.1) 中有一个表，我想删除最初使用主键约束创建的约束。我尝试这样做，但查询运行了 2-3 小时，我已取消它，因为没有其他选择，然后我进行了备份并尝试删除表，但查
sql - Greenplum plpgsql 函数在输入结束时返回语法错误
我在 Greenplum 中编写了一个 PL/pgSQL 函数，该函数需要翻译 interval哪个< interval '00:00:00'为正值。例如区间值-23:57:00应该翻译成00:03
postgresql - 对 Greenplum 中的表列进行解聚合
我正在使用 Greenplum，我有这样的数据: id | val ----+----- 12 | 12 12 | 23 12 | 34 13 | 23 13 | 34 13
php - 为什么用 greenplum 准备这么慢？
我连接了一个greenplum，我发现pdo太慢了我的测试脚本是这样的 = '2017-01-17' and date query($sql); $end = microtime(true); #v
hadoop - 向 Greenplum 物理表中插入数据
我正在尝试将数据从 Greenplum 外部表插入到物理(或普通表)表中。外部表指向一个包含大约 1.32 亿数据的配置单元文件。但是，当我的外部表显示只有 6600 万的计数时。结果，当插入物理表时
sql - Greenplum 与 PostgreSQL
支持和反对使用 Greenplum 的论据是什么？而不是 PostgreSQL在 webapp (django) 环境中？我的直觉 react 是更喜欢 PostgreSQL 的开源方法和庞大的知识
postgresql - Greenplum，是否可以将 CSV 导出到远程服务器？
我想知道，是否可以使用 PostgreSQL 将数据从 Greenplum 中的表导出到 CSV 但到远程服务器，或者 CSV 的传输必须手动完成(或通过脚本)。最佳答案 Greenplum 有一个
database - Greenplum 与 Postgres-XL
我正在查看这两个大规模并行数据库:Postgres-XL和 Greenplum . 问题是，我不知道如何在它们之间做出选择，因为它们看起来都一样:都是开源的，基于 PostgreSQL，都使用 MPP
postgresql - Greenplum 数据库没有动态扩展到我们的 Linux 系统
这种情况下的主要困难是来自 Greenplum 数据库的磁盘空间不足错误。我们在 Amazon Linux 机器上运行 Greenplum 数据库 4.2.0.0。调查显示如下: 1) Greenp

首页

博学

6Ren·AI

商城

python - 我如何将数据从数据框(在 python 中)插入到 greenplum 表？