gpt4 book ai didi

python - 使用 Pandas 合并大型数据集

转载 作者:行者123 更新时间:2023-12-01 03:50:57 24 4
gpt4 key购买 nike

我正在尝试合并两个大型 DataFrame:

  • myTable,形状:(331994, 13)。第一个包含多个客户代码(1 列)的交易数据(12 列)
  • 引用,形状 (75546, 1)。第二个包含一个引用表,其中客户代码作为索引,客户名称位于第 1 列。

我想合并两个表以使名称在 myTable 中可用。

我尝试合并两个表,但始终出现内存错误,我想知道是否有更优化的方法来执行此操作:

  • 使用索引进行合并是否更好?
  • 我应该在合并之前对表格进行排序吗?
  • 我是否应该在合并之前尝试过滤 referential 表以排除 myTable 中未出现的客户端代码?
  • 是否有更有效的方法来编写此合并?
  • 我可以避免进行如此简单的操作合并吗?

我尝试使用以下代码查找每一行的 clientName :

myTable["clientName"]=myTable.clientCode.apply(lambda x:
referential.loc[x]["clientName"])

它工作正常,但有点长。

提前致谢

最佳答案

假设您的引用 DF 如下所示:

   clientName
0 name1
1 name2
2 name3

其中索引对应于ClientCode,您可以使用 map()方法:

myTable["clientName"] = myTable.clientCode.map(Referential['clientName'])

关于python - 使用 Pandas 合并大型数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38270216/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com