python - 将大表读入 Pandas，有中间步骤吗？-6ren

python - 将大表读入 Pandas，有中间步骤吗？

转载作者：行者123 更新时间：2023-11-30 22:17:28

27

4

我正在编写一个数据分析脚本。此脚本连接到 Teradata，从表中Select * 并将其加载到 pandas 数据帧中。

import teradata
import pandas as pd

with udaExec.connect(method="xxx", dsn="xxx", username="xxx", password="xxx") as session:

    query = "Select * from TableA"

    # read in records
    df = pd.read_sql(query, session)

    # misc pandas tests below...

这对于具有 100k 或更少记录的表非常有效，但问题是许多表的记录远多于此(数百万条记录)，而且它往往会无限期地运行。

我可以采取一些中间步骤吗？我一直在研究，我看到一些关于首先将数据库表复制到 .csv 文件或 .txt 文件或其他文件，然后从中加载 pandas 数据框(而不是从表本身加载)，但我不能理解它。

如有任何建议，我们将不胜感激!谢谢。

最佳答案

在评论中，我 promise 提供一些代码，可以将服务器上的表快速读取到本地 CSV 文件中，然后将该 CSV 文件读取到 Pandas 数据框中。请注意，此代码是为 postgresql 编写的，但您可能可以轻松地将其改编为其他数据库。

这是代码:

from cStringIO import StringIO
import psycopg2
import psycopg2.sql as sql
import pandas as pd

database = 'my_db'
pg_host = 'my_postgres_server'
table = 'my_table'
# note: you should also create a ~/.pgpass file with the credentials needed to access
# this server, e.g., a line like "*:*:*:username:password" (if you only access one server)

con = psycopg2.connect(database=database, host=pg_host)
cur = con.cursor()    

# Copy data from the database to a dataframe, using psycopg2 .copy_expert() function.
csv = StringIO()  # or tempfile.SpooledTemporaryFile()
# The next line is the right way to insert a table name into a query, but it requires 
# psycopg2 >= 2.7. See here for more details: https://stackoverflow.com/q/13793399/3830997
copy_query = sql.SQL("COPY {} TO STDOUT WITH CSV HEADER").format(sql.Identifier(table))
cur.copy_expert(copy_query, csv)
csv.seek(0)  # move back to start of csv data
df = pd.read_csv(csv)

这里还有一些通过 CSV 路径将大型数据帧写入数据库的代码:

csv = StringIO()
df.to_csv(csv, index=False, header=False)
csv.seek(0)
try:
    cur.copy_from(csv, table, sep=',', null='\\N', size=8192, columns=list(df.columns))
    con.commit()
except:
    con.rollback()
    raise

我通过 10 Mbps 办公网络(不要问!)使用 70,000 行表(5.3 MB 作为 CSV)测试了此代码。

当从数据库读取表时，我发现上面的代码比 pandas.read_sql() 快了大约 1/3(5.5 秒 vs. 8 秒)。我不确定这是否能证明在大多数情况下额外的复杂性是合理的。这可能是你能得到的最快的速度了——postgresql 的 COPY TO ... 命令非常快，Pandas 的 read_csv 也是如此。

将数据帧写入数据库时，我发现使用 CSV 文件(上面的代码)比使用 pandas 的 df.to_sql() 快约 50 倍(5.8 秒 vs 288 秒)。这主要是因为 Pandas 不使用多行插入。这似乎多年来一直是人们积极讨论的话题——参见 https://github.com/pandas-dev/pandas/issues/8953 .

关于chunksize的一些注意事项:这可能达不到大多数用户的预期。如果您在pandas.read_sql()中设置了chunksize，查询仍然作为一个命令运行，但结果会批量返回到您的程序；这是通过一个迭代器来完成的，迭代器依次生成每个 block 。如果您在 pandas.to_sql() 中使用 chunksize，它会导致批量完成插入，从而减少内存需求。然而，至少在我的系统上，每个批处理仍然被分解为每行的单独 insert 语句，并且这些语句需要很长时间来运行。

更新: 在我写完这篇文章后不久，Pandas 在 .to_sql() 中添加了一个 method 参数，这可能正是您想要的。检查documentation对于'multi'和callable选项。

关于python - 将大表读入 Pandas，有中间步骤吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49658348/

27

4

0

文章推荐： python - 二微分方程组的 Runge-Kutta 实现

文章推荐： python - pytest mysql 数据库 fixture : cannot create database

文章推荐： sql - 在子查询中如何获取 max() 组的值？

读入 CSV 文件并添加带有文件名的列
假设您有 2 个文件，如下所示。 file_1_october.csv file_2_november.csv 文件具有相同的列。所以我想在 R 中读取这两个文件，我可以使用 map 轻松完成。我还想
r - 读入 R 时如何在数值中保留零
我有一个制表符分隔的文本文件: 0730000 John 1 01 225 000 000 当我将它读入 R 时 stud_stats data.table::f
r - 读入 R 最快的文件格式是什么？
似乎最直观的是 .rdata 文件可能是 R 加载的快速文件格式，但是在扫描一些堆栈帖子时，似乎更多的注意力集中在提高 .csv 或其他格式的加载时间上。有确定的答案吗？最佳答案不是一个明确的答案
R:读入 .csv 文件并转换为多列数据框
我是 R 的新手，目前在读取 .csv 文件并将其转换为 data.frame 时遇到了很多麻烦7 列。这是我正在做的: gene_symbols_table head(gene_symbols_t
LINQPAD - 读入 csv 并将列存储到列表中
基本上我有一个格式如下所示的 csv: csv 有 11 列，前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中，它们具有值，并对另一个列表中的
arrays - 读入 Julia 中的数组
我对 Julia 比较陌生，正在寻找一种有效的方法来从文本文件中读取并将每个“列”存储在数组中(我有 2 列，但通用解决方案也很棒)。例如，我想要输入 1 2 3 4 5 6
LINQPAD - 读入 csv 并将列存储到列表中
基本上我有一个格式如下所示的 csv: csv 有 11 列，前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中，它们具有值，并对另一个列表中的
c: 读入 int 不完整
我的程序分配了一个 32 位 int，随后尝试使用 read(2) 从套接字将 4 个字节读入 int 有时读取不完整并返回读取 2 个字节。有什么方法可以从中恢复吗？我想我必须在 int 的中途生成
根据标题开始的位置将 CSV 读入 R
我有大量的 CSV 文件。有些标题从第一行开始，其他标题从第 3 行开始，其他的从第 7 行开始，依此类推。标题看起来都一样，它们只是从不同文件的不同行开始。有没有办法有条件地 read.csv 文
c# - 读入 CSV 文件
我写了一个小程序来从 csv 文件中读取数据: using System; using System.Collections.Generic; using System.Linq; using Sys
c++ - 读入 vector 时排序
我需要读入一个包含 10,000 个整数的列表，并将它们按升序放置在一个 vector 中。请注意，我不是在然后阅读排序，而是在同时阅读时排序。我这样做是为了学习。我意识到阅读时排序是 O(n^2)
bash - 读入 bash 脚本并将参数传递给脚本
我有一个问题。不幸的是，我没有找到任何答案。如何将参数传递给脚本，这是另一个命令的结果。例如: ls | ./myscript.sh 我想将 ls 的结果传递给 myscript。如果我执行上面的命
c++ - 读入 ascii 扩展字符
我在读取扩展 ASCII 字符并将其转换为十进制值时遇到问题。我试过这样做: unsigned char temp; while(temp = cin.get != EOF) { cout << (i
python - 读入 python 后从文本文件中删除第一行标题
我已经通过以下命令加载了文本文件。我想从 contents 中删除由 \n 分隔的第一行标题行。怎么做？ txtfile = open(filepath, "rt") contents = txtfi
python - 读入 np 数组不起作用
希望一切顺利...我正在将数据集输入到 sklearn 算法中进行分类，但找不到任何简单的数据集来开始，所以我自己制作了数据集。但有一个问题... import numpy as np import
c++ - 如何使用C++读入.csv文件并以另一种形式输出？
我有一个 .csv 文件，它有 3 行和 5 列，值为 0、1、2、3、50 或 100。我将它从 Excel 工作表保存到 .csv 文件。我正在尝试使用 C++ 读取 .csv 文件，并根据最后三
c# - 读入 HTML 文件并替换为变量
我有一个 HTML 文件，它将作为我要发送的电子邮件的模板。 html 中有一些字段是可变的。我想知道是否有一种可靠的方法可以用变量替换 HTML 文件中的占位符。我知道我可以 string.Repl
c# - 读入 JSON 数组并转换为 IEnumerable
我从未使用过 JSON 文件，但我有实现 JSON 文件的任务，我需要将其转换为 IEnumerable。当我尝试对 JSON 对象进行反序列化时，我得到一个异常，上面写着: An unhandled
C# 将 IFormFile 读入 byte[]
我正在尝试阅读 IFormFile从这样的 HTTP POST 请求中收到: public async Task UploadDocument([FromForm]DataWrapper data)
将多行文本 block 读入 R 中的单个向量
我有一个包含大量多行文本 block 的文件。我想将该文件读入一个字符向量列表——每个 block 一个。我对 scan()、read.table() 等函数的文档的阅读似乎表明一行的结尾将结束向量。

首页

博学

6Ren·AI

商城

python - 将大表读入 Pandas，有中间步骤吗？