gpt4 book ai didi

python - 合并大型数据帧时 Pandas concat 函数超时

转载 作者:行者123 更新时间:2023-12-04 09:39:57 26 4
gpt4 key购买 nike

我正在尝试组合三个数据帧,总共超过 120,000 个特征和 206,000 行。所有三个数据框都是文档项矩阵。这是代码:

new_df = pd.concat([df_1, df_2], axis = 1, sort = False)

如您所见,我正在使用 concat 函数来组合横轴上的三个数据框。目前,Jupyter Notebook 超时并在这段代码运行一段时间后重新启动内核(我假设是因为功能的数量)。任何有关减少这些数据帧大小或组合它们的方法的见解都将不胜感激。

最佳答案

试试 SFrame来自 https://github.com/apple/turicreate :

pip install -U turicreate

代替
import pandas as pd
df = pd.read_csv(...)

使用 SFrame 执行此操作, https://turi.com/products/create/docs/generated/graphlab.SFrame.html#graphlab.SFrame :
import turicreate as tc
sf1 = tc.SFrame.read_csv(...)
sf2 = tc.SFrame.read_csv(...)

然后连接 SFrames:
new_sf = sf1.append(sf2)

问: 为什么 SFrame 适用于大号。数据行而不是 Pandas ?

答: https://www.youtube.com/watch?v=wUOMaKYtaMY

问: 那么为什么 Pandas 比 SFrame 更受欢迎呢?

答:*耸耸肩。

关于python - 合并大型数据帧时 Pandas concat 函数超时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62378385/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com