python - Pandas: Merge array is too big, large, 如何分段合并？-6ren

python - Pandas: Merge array is too big, large, 如何分段合并？

转载作者：行者123 更新时间：2023-11-28 19:21:01

34

4

尝试使用 Pandas 合并两个数据帧时，我收到此消息:“ValueError:数组太大。”我估计合并后的表将有大约 50 亿行，这对于我的 8GB RAM 计算机来说可能太多了(这仅受我的 RAM 限制还是内置于 pandas 系统中？)。

我知道，一旦有了合并表，我将计算一个新列，然后过滤行，寻找组内的最大值。因此最终输出的表只有250万行。

如何分解这个问题，以便我可以在较小的部分上执行此合并方法并构建输出表，而不会达到我的 RAM 限制？

下面的方法适用于这种小数据，但无法适用于较大的真实数据:

import pandas as pd
import numpy as np

# Create input tables
t1 = {'scenario':[0,0,1,1],
      'letter':['a','b']*2,
      'number1':[10,50,20,30]}

t2 = {'letter':['a','a','b','b'],
      'number2':[2,5,4,7]}

table1 = pd.DataFrame(t1)
table2 = pd.DataFrame(t2)

# Merge the two, create the new column. This causes "...array is too big."
table3 = pd.merge(table1,table2,on='letter')
table3['calc'] = table3['number1']*table3['number2']

# Filter, bringing back the rows where 'calc' is maximum per scenario+letter
table3 = table3.loc[table3.groupby(['scenario','letter'])['calc'].idxmax()]

这是对前两个问题的跟进:

Does iterrows have performance issues?

What is a good way to avoid using iterrows in this example?

我在下面回答我自己的问题。

最佳答案

您可以使用 groupby 拆分第一个表(例如，在“场景”上)。首先创建一个新变量可能是有意义的，它可以为您提供完全符合您需要的大小的组。那么iterate through these groups对每个执行以下操作:执行新的合并、过滤，然后将较小的数据附加到最终输出表中。

如“iterrows 是否存在性能问题？”中所述，迭代速度很慢。因此，尝试使用大群体来使用最有效的方法来保持它。 Pandas 是relatively quick合并时。

从创建输入表之后开始

table3 = pd.DataFrame()

grouped = table1.groupby('scenario')

for _, group in grouped: 
    temp = pd.merge(group,table2, on='letter')
    temp['calc']=temp['number1']*temp['number2']
    table3 = table3.append(temp.loc[temp.groupby('letter')['calc'].idxmax()])
    del temp

关于python - Pandas: Merge array is too big, large, 如何分段合并？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25046813/

34

4

0

文章推荐： python - Django 切断上传的文件

文章推荐： python - uuid.uuid1、uuid_generate_time 和线程

文章推荐： javascript - 在 javascript 输出中设置字体样式

文章推荐： python - python 中 qq-plot(或 probplot)的逐点置信度包络线

python - matplotlib:(xx-small、x-small、small、medium、large、x-large、xx-large、large、smaller)特殊尺寸的值
matplotlibrc 示例文件指出: ## The font.size property is the default font size for text, given in pts. ## 1
html - 字体大小范围 {1, 2, 3, 4, 5, 6, 7} 和 {xx-small, x-small, small, medium, large, x-large, xx-large 之间是否存在事实上的关系}?
在 HTML/CSS 中，可以通过以下方式指定字体大小(已弃用，但所有浏览器都支持): text n 是 {1, 2, 3, 4, 5, 6, 7} 的一个元素。另一种可能性是: text s 是
c++ - 将 large double 除以 large int
我正在编写物理模拟代码，最近我遇到了异常结果。我设法调试了我的程序，错误出在用大整数除以大 double ，形式如下: cout << my_large_double/my_large_int <<
mysql - "large"或 Blob 中的 "binary large object"是什么意思
由于“大”是一个相对术语，我想知道“大”的确切含义是什么。更具体地说，我想在数据库中存储从几个字节到 50 个字节的二进制数据，并且想知道是否应该使用 Blob 或其他数据类型。最佳答案所有 DB
python - Spark : Warning that task size is too large despite no large, 非分布式文件
这是我的代码的想法: 我有一个很大的电子邮件数据 RDD，称为 email。大约 7 亿封电子邮件。它看起来像这样: [['value1','value2','value3','value4'],['
hadoop - pig : Splitting large large file into multiple smaller files
我需要拆分由另一个 Pig 脚本生成的输出部分文件，并生成每个包含 1000 行的组。这些组将发布到网络服务以供进一步处理。数据之间没有关系，所以我无法将数据分组到特定字段。我如何在 Pig 中执行
amazon-web-services - 为什么 t2.large 的定价与 m4.large 相似？
它们都有 2vcpu 和 8G 内存。但对于 t2.large，您只能使用单个 vcpu 的 60%，两个 vcpu 平均各使用 30%。即使考虑到“CPU积分”，t2.large似乎也比m4.lar
windows - Windows下的git svn clone large repo : out of memory - not a large file issue
我正在尝试使用 git svn 克隆一个大型 svn 存储库。 repo 有 100000 次修订。大小约为 9GB(原始文件夹)。 repo 协议(protocol)中的最大文件是 300 MB。
android - 我想在 android studio 中使用 qulifier ，但我无法添加目录 layout-large
我刚接触 android。在我的教程书中(有点过时)在Eclipse中教学，只是在layout-large目录下编写另一个layout xml文件以适配大屏。我使用的是android studio，
mongodb - 将安装了 mongodb 的 amazon EC2 m1.large 实例升级到 m3.large
如果我要升级亚马逊实例，我会创建镜像的快照并从该镜像创建新实例，然后升级该实例。我的问题与 mongodb 以及从 m1.large 升级到 m3.large 实例的最佳方式有关 - 基本上 m3
java - Java 中的 int[large][small] 或 int[small][large] 之间是否存在低级差异？
这个问题可能需要一些编译器知识才能回答。我目前正在做一个项目，我将在其中创建一个数组，可能是 int[2][veryLargeNumber] 或 int [veryLargeNumber][2] 逻辑
amazon-rds - 哪种RDS实例类型IO更好 : Extra Large DB Instance or High-Memory Extra Large Instance
我在使用 mysql 5.5.12 时遇到了 Amazon RDS 的 IO 性能问题。有 2 种实例类型相似且价格接近: 超大数据库实例:15 GB 内存、8 个 ECU(4 个虚拟核心，每个 2
HTML 表格设计。哪个更好 :A large number of rows in a single table or large number of table with few rows each
我需要设计一个包含大量字段的网页，每个字段都显示在一行表格中。有几个类别。我希望为每个类别制作一个单独的表格并进行不同的设计。网页上存在大量表格是否会使速度变慢？哪个更好.. 有 10 个表，每个表
java - com.mysql.jdbc.PacketTooBigException : Packet for query is too large even with Packet for query is too large even with max_allowed_packet
我在my.cnf中添加了如下内容 [mysqld] max_allowed_packet=32M [mysql] max_allowed_packet=32M 而且我还在 JDBC 查询中添加了以下内
android - 冲突 layout-large-hdpi (Nexus 7) 与 layout-large-hdpi-1280x800 (Samsung 7.7) Android
我正在为 Nexus 4、Samsung 7.7、Nexus 7、S3 和 Note-2 开发应用程序。我正在为所有这些布局制作一个 apk。除 Nexus 7 和 Samsung 7.7 外，其他一
large-files - 如何处理大文本文件？
我有一个包含大约 1000 万行且大小约为 400mb 的文件，我的系统无法处理它。当我尝试使用 gedit 打开文件时，它卡住了。有没有办法处理这么大的数据文件。最佳答案使用 gnu(Windo
Java编译器显示错误 “integer is too large”
这个问题已经有答案了: "Integer too large" for a small compile time constant (4 个回答) 已关闭 6 年前。当我添加整数时，即使我将其加倍，
Java编译器显示错误 "integer is too large"
这个问题已经有答案了: "Integer number too large" error message for 600851475143 (8 个回答) Java long number too l
Java编译错误: code too large
我们正在开发一个注册系统，但现在由于编译期间出现内存错误而陷入困境。我们上网查了一下，发现错误信息的原因是.java文件的大小。我们的 EnrollmentSystem 类现在有 10171 行代码
PHPMyAdmin上传错误 'file that is too large'
这个问题已经有答案了: How to import large sql file in phpmyadmin (23 个回答) 已关闭 4 年前。我刚刚在 Digital Ocean 上设置了一个

首页

博学

6Ren·AI

商城

python - Pandas: Merge array is too big, large, 如何分段合并？