gpt4 book ai didi

python , Pandas : Compare two dataframes and return combined

转载 作者:行者123 更新时间:2023-12-05 02:02:42 26 4
gpt4 key购买 nike

晚上好

我想知道,比较两个数据框并返回它们的组合的最佳方法是什么?或者如果 pandas 中甚至有一个内置函数?

例如,这是我的两个数据框:

数据框 01:

first_name | age | id | value_a | value_b | value_c
peter | 37 | 19 | 4562 | 78 | 21.5
jane | 32 | 5 | 3832 | 85 | 17.0
michael | 43 | 41 | 2195 | 63 | 44.4

数据框 02:

first_name | age | id | value_a | value_b | value_c
sarah | 51 | 2 | 63 | 81 | 4.1
peter | 37 | 19 | 4562 | 81 | 21.5
tom | 22 | 89 | 107 | 14 | 0.0
michael | 43 | 41 | 1838 | 63 | 44.4

如您所见,整个数据框(Dataframe 02)中有一些新条目,并且还列出了一些已经存在的条目 --> 在这些行中进行了一些更改!我想要实现的是一个新的(?)数据框,其中包含所有新行、已经存在的行和已更新的行!在这种情况下:

新数据框

first_name | age | id | value_a | value_b | value_c
peter | 37 | 19 | 4562 | 81 | 21.5
jane | 32 | 5 | 3832 | 85 | 17.0
michael | 43 | 41 | 1838 | 63 | 44.4
sarah | 51 | 2 | 63 | 81 | 4.1
tom | 22 | 89 | 107 | 14 | 0.0

注意事项:

  • 总有一个列(这里是“id”)可以看作是一个不变的键
  • 行数可能不同
  • 列的数量和名称始终保持不变
  • 行的顺序并不重要

感谢您的帮助,祝您度过一个愉快的夜晚!

最佳答案

自从您问pandas 中是否有内置函数?。答案是肯定的,pandas 中有一个内置函数,可让您比较标记相同(具有相同索引和列)的数据框。

有一个 DataFrame.compare 函数在 pandas 版本 >= 1.1.0 中可用,它允许您将第一个数据帧与第二个数据帧进行比较并显示差异:

那么,现在让我们看看您所说的示例

  • there is always a column (here: 'id') that can be seen as a non changing key
  • the amount and names of the colums are always staying the same

因此,为了比较两个数据帧,您首先需要对两个数据帧进行 align,这可以在将列 DataFrame.align 设置为两个数据帧中的通用 id 后使用 index 函数完成:

d1, d2 = df1.set_index('id').align(df2.set_index('id'))

现在您可以在对齐的数据帧上使用 DataFrame.compare :

d1.compare(d2, keep_equal=True)

结果:

         first_name     age           value_a         value_b       value_c      
self other self other self other self other self other
id
2 NaN sarah NaN 51.0 NaN 63.0 NaN 81.0 NaN 4.1
5 jane NaN 32.0 NaN 3832.0 NaN 85.0 NaN 17.0 NaN
19 peter peter 37.0 37.0 4562.0 4562.0 78.0 81.0 21.5 21.5
41 michael michael 43.0 43.0 2195.0 1838.0 63.0 63.0 44.4 44.4
89 NaN tom NaN 22.0 NaN 107.0 NaN 14.0 NaN 0.0

现在来回答你的第二个问题:

How to achieve is a new(?) dataframe that contains all the new rows,the already existing ones and those who got updated!

您可以在对齐的数据帧 DataFrame.comine_firstd1 上使用 d2 :

d2.combine_first(d1)

或者,对于非对齐的如下:

df2.set_index('id').combine_first(df1.set_index('id'))

结果:

   first_name   age  value_a  value_b  value_c
id
2 sarah 51.0 63.0 81.0 4.1
5 jane 32.0 3832.0 85.0 17.0
19 peter 37.0 4562.0 81.0 21.5
41 michael 43.0 1838.0 63.0 44.4
89 tom 22.0 107.0 14.0 0.0

关于 python , Pandas : Compare two dataframes and return combined,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65655246/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com