gpt4 book ai didi

Python 无法识别重复项

转载 作者:行者123 更新时间:2023-12-01 00:16:11 26 4
gpt4 key购买 nike

我拥有的 2 个数据集的前 5 行的示例快照Emp1 数据框:

Name
--------
John
Matt
Anish
Dave
Mike

Emp2 数据框:

Name
--------
Sue
Matt
Raj
Dave
Simon

我将两者连接起来(将它们转换为进程中的对象,以防万一)

 Con=pd.concat(emp1.astype(str),emp2.astype(str))
Con
Name
-----
John
Matt
Anish
Dave
Mike
Sue
Matt
Raj
Dave
Simon

但是,出于某种原因,python 似乎并不认为 Matt 和 Dave 是重复的

Con.duplicated()
False
False
False
False
False
False
False
False
False
False

我还尝试使用 pd.merge 进行外部连接,但仍然无法识别重复项。我想将主 Emp1 与 Emp2 进行比较,并找出 Emp1 中的哪些名称不在 Emp2 中。所以我的逻辑是合并/连接两者并选择不重复的值。数据是从excel中读取的。

非常感谢

最佳答案

可能存在一些尾随空格,因此请删除它们:

df1['name'] = df1['name'].str.strip()
df2['name'] = df2['name'].str.strip()

关于Python 无法识别重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59320625/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com