gpt4 book ai didi

python - 使用 pandas 比较两个 Excel 文件

转载 作者:行者123 更新时间:2023-12-01 01:41:23 30 4
gpt4 key购买 nike

我有两个 Excel 文件,A 和 B。A 是主副本,其中提供了员工姓名和组织名称(NameOrg)的更新记录。文件 B 包含具有较旧记录的 NameOrg 列以及许多我们不感兴趣的其他列。

   Name      Org
0 abc ddc systems
1 sdc ddc systems
2 csc ddd systems
3 rdc kbf org
4 rfc kbf org

我想对此进行两个操作:

1) 我想将 Excel B(列 NameOrg)与 Excel A(列 NameOrg)并使用 Name 和相应 Org 的所有缺失条目更新文件 B。

2) 对于文件 B 中的所有现有条目(列 NameOrg),我想将文件 和 与文件 A 进行比较并更新 Org 列(如果任何员工组织发生更改)。

对于解决方案 1),要找到尝试以下方法的新条目(但不确定这种方法是否正确),输出是元组,我不确定如何更新回 DataFrame。

diff = set(zip(new_df.Name, new_df.Org)) - set(zip(old_df.Name, old_df.Org))

任何帮助将不胜感激。谢谢。

最佳答案

如果名称是唯一的,只需连接 A 和 B,并删除重复项。假设 AB 是您的 DataFrame,

df = pd.concat([A, B]).drop_duplicates(subset=['Name'], keep='first')

或者,

A = A.set_index('Name')
B = B.set_index('Name')

idx = B.index.difference(A.index)
df = pd.concat([A, B.loc[idx]]).reset_index()

两者在性能方面应该大致相同。

关于python - 使用 pandas 比较两个 Excel 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51852514/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com