python - Pandas unstack() 和 pivot() : MemoryError-6ren

python - Pandas unstack() 和 pivot() : MemoryError

转载作者：行者123 更新时间：2023-12-04 08:51:47

25

4

问题描述
我想取消堆叠或旋转 DataFrame，但它会引发 numpy 异常 MemoryError: Unable to allocate 1.72 GiB for an array with shape (1844040704,) and data type bool 。我已经尝试过使用带有数字索引 -> df.pivot() 和 Multiindex -> df.unstack() 的 DataFrame ]。两者都显示相同的异常，我不知道解决办法。我不觉得我有一个包含 175199 行的特别大的数据集。我以前在超过 5mio 行的 DataFrames 上使用过 unstack。 对于完整的分析，df 甚至会变大 2 倍!
我尝试使用 df_unstacked = df.unstack(level=0) 进行拆栈
附加信息
在数据透视/取消堆栈之前，我必须使用 df['row_num'] = np.arange(len(df)) 添加一个唯一索引，因为数据集包含(想要的)重复索引条目。那是由于夏令时，十月的一天有 25 小时。第 2 个小时是重复的。
我使用 python 3.7 从 virtualenv 使用 Jupyterlab。
包版本:

Pandas ==1.1.2

numpy==1.19.2

jupyterlab==2.2.8

示例数据

                                    value
target_frame        row_num year         
2017-01-01 01:00:00 0       2016  10,3706
2017-01-01 01:15:00 1       2016  27,2456
2017-01-01 01:30:00 2       2016  20,4022
2017-01-01 01:45:00 3       2016  14,4911
2017-01-01 02:00:00 4       2016  14,2611
...                                   ...
2017-12-31 23:45:00 175195  2020  30,7177
2017-01-01 00:00:00 175196  2020  21,4708
2017-01-01 00:15:00 175197  2020  44,9192
2017-01-01 00:30:00 175198  2020  37,8560
2017-01-01 00:45:00 175199  2020  30,9901

[175200 rows x 1 columns]

想要的结果
该索引将包含重复项。为了记录，我不在乎它是索引还是常规列。

                     value
year                 2016     2017  ...  2020
target_frame                  
2017-01-01 01:00:00  10,3706  11    ...  32
2017-01-01 01:15:00  27,2456  12    ...  32
2017-01-01 01:30:00  20,4022  13    ...  541
2017-01-01 01:45:00  14,4911  51    ...  123
2017-01-01 02:00:00  14,2611  56    ...  12
...                                   ...
2017-12-31 23:45:00  30,7177  12    ...  12
2017-01-01 00:00:00  21,4708  21    ...  12
2017-01-01 00:15:00  44,9192  21    ...  13
2017-01-01 00:30:00  37,8560  21    ...  11
2017-01-01 00:45:00  30,9901  12    ...  10

[35040 rows x 5 columns]

最佳答案

我会尽力帮助你解决内存力不足的问题，以及解决它的方法。
由于您的数据已经有近 20 亿条记录，并且错误与内存有关，因此我将重点关注这一点，而不考虑转换本身。
如果您使用的是 df、df_pivoted、df_unstacked 等，则每次转换都会创建一个新变量，并增加内存消耗。所以在这个过程中清除内存很重要。即使您的数据看起来不足以消耗所有内存。
解决此问题的一种方法是处理“块”并将每个转换步骤保存到文件中以清除内存。
所以第一步是保存文件，用一个简单的“dataframe.to_csv()”。
第二步是使用适合内存的部分数据进行转换。
为此，pandas.read_csv () 函数中有一个参数，称为“chuncksize”，可将您的导入对象转换为迭代 TextFileReader。
这样，如果要访问数据信息，则需要对其进行迭代。

iterator = pandas.read_csv('file.csv', chuncksize=32)
iterator.shape # will raise an error.

AttributeError: 'TextFileReader' object has no attribute 'shape'

正确的做法:

for chunck in iterator:
    print (chunck.shape)

输出:

(32, ncols)

这样，为了解决您的问题，您可以使用 chuncks 并根据需要使用连接函数进行分析。

关于python - Pandas unstack() 和 pivot() : MemoryError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64063423/

25

4

0

c# - 显示一个 Pivot 但在另一个 Pivot 中注册水龙头的 Pivot 控件
我有一个 todolist 应用程序，它在 Pivot 控件内的单独 PivotItems 中具有多个 ListBox 控件。如果我导航到另一个页面，然后使用后退按钮返回，则显示的 Pivot 没有响
r - 避免使用 pivot longer 进行硬编码以一次对多个列进行 pivot
我想 pivot_long() 下面数据集的多列避免硬编码。我看过一些类似的问题，但我仍然做不到。宽数据: > head(data) ID IND_TEST_SCORE ARG_G1_A
pivot - 拉维尔 : pivot table point to multiple tables
假设我有一个 orders 表，它将与另外三个名为 typings、translates 和论文。我知道数据透视表应该有点像 many to many polymorphic relation但这
sql - PIVOT 运算符中指定的列名 "FirstName"与 PIVOT 参数中的现有列名冲突
当我尝试将 null 替换为 zero 时，收到以下错误消息。 The column name "jan" specified in the PIVOT operator conflicts with
pivot-table - Excel 2010 : Hide 0 values in Pivot
有没有办法在数据透视表中为计算为零的单元格隐藏或显示空白单元格？最佳答案使用数字格式隐藏所选单元格中的零值: 按照此过程隐藏所选单元格中的零值。如果其中一个单元格中的值更改为非零值，则该值的格式将
algorithm - 选择算法中的 good pivot VS "bad pivot"有什么区别？
我正在尝试理解 Select algorithm我遇到了 a good pivot VS a bad pivot 。我可以看到该算法正在使用 Partition 算法来分隔右侧的较大元素pivot 和
c# - 如何在 UWP 的 Pivot 中获取 Pivot.ItemTemplate 中的控件？
我有以下代码:
php - 拉维尔 : Eager loading pivot table and sorting on pivot table field
我有一个国家表和一个数据透视表 Country_language，其中列出了所有国家及其可用语言的翻译。表结构如下: Languages -------------- ID Locale Recor
redis - 我可以在 Pivotal Web Services 上使用 Pivotal 的 Redis 和 RabbitMQ for Cloud Foundry
目前，PWS 上唯一的 RabbitMQ 服务看起来有点不确定。我想知道我是否可以使用 Pivotals 解决方案 https://network.pivotal.io/products/p-redi
python - Spark DF pivot error : Method pivot([class java. lang.String, class java.lang.String]) 不存在
我是使用 Spark 数据帧的新手。我正在尝试将 pivot 方法与 Spark(Spark 版本 2.x)一起使用并遇到以下错误: Py4JError: An error occurred whil
pivot - 雪花脱节
我需要转置一个表，其中 column1 是实体的名称，column2 到 column366 是一年中包含美元金额的日期。表，select语句，输出结果都给了以下 - 问题 - 此语法要求我创建一个
pivot - openrefine可以做汇总表吗？
我想知道是否可以像在 python 和 R 上那样在 OpenRefine 上创建值的聚合和汇总？示例: 包含 30 万条记录的医疗预约表身份识别患者 |年龄 |身份证预约 |值患者汇总和总结的结果
pivot - openrefine可以做汇总表吗？
我想知道是否可以像在 python 和 R 上那样在 OpenRefine 上创建值的聚合和汇总？示例: 包含 30 万条记录的医疗预约表身份识别患者 |年龄 |身份证预约 |值患者汇总和总结的结果
带有重复变量的sql pivot
我不熟悉 SQL 并使用 Google BigQuery。我有一个表，其中有一条记录如下所示: publication_number |受让人 US-6044964-A|索尼公司 |数字音频光盘公司
没有聚合的sql pivot
在尝试转换 sql 表时，我看到了这篇文章 Here .通过使用这种方法，我创建了一个查询。但是我现在已经意识到它当然会使用 MAX 函数聚合结果。但是，我需要 Colum 旋转，但要显示所有事件。从
sql pivot 行到多列
我们能否将行旋转到多列，即 Create table #Temp_Trans ( P_ID int, Custom_Name varchar(30), Text_Value var
Excel Pivot 过滤计算字段
计算字段很棒，但有一些限制，例如无法对其进行排序(无法将字段移动到报告过滤器区域)。我试过“强制”一个过滤器，就像微软的人建议的那样:https://answers.microsoft.com/en
Excel Pivot - 给定范围内不同值的计数
我有以下数据集，我需要从中计算数据透视中不同值的计数。我尝试了几个函数，如 FREQUENCY、COUNTIFS 等，但我做不到。输入 Input Data 输出 Expected Output 最
SQL PIVOT 生成所需的输出
请看下面的数据: 我正在寻找生成以下输出的查询: 我正在试验“PIVOT”，但尚未取得预期的结果。最佳答案这应该有效: SELECT ReviewType, DER, LEI, NOR, [NOT
具有可变列的 SQL Pivot
我有两个表Person(person_id, name) 和另一个表Contacts(person_id, phone_type, phone_no)。 Person-----------------

首页

博学

6Ren·AI

商城

python - Pandas unstack() 和 pivot() : MemoryError