gpt4 book ai didi

python - Pandas - 在 CSV 文件的不同列中查找相同值的更快方法?

转载 作者:行者123 更新时间:2023-12-01 09:09:02 33 4
gpt4 key购买 nike

我需要查找 CSV 输入文件中循环引用的行,例如:

start,end,weather
california,arizona,hot
colorado,kansas,cold
arizona,california,hot

上面应该检测到第一行和第三行是循环引用。我当前正在将 csv 加载到数据库中并运行自连接查询以确定数据是否具有循环引用。但想看看是否有任何方法可以使用 Python Pandas 来处理这个问题。

谢谢!

最佳答案

您可以过滤 df.start Serie 的值包含在 df.end Serie 中的行。然后应用第二个过滤器来获取 df.end Serie 的值包含在 df.start Serie 中的行:

df = df.loc[df.start.isin(df.end),:]
df = df.loc[df.end.isin(df.start),:]
df["way"] = df.apply(lambda x: sorted([x["start"], x["end"]]), axis=1)
print(df)

输出将为您提供第 0 行和第 2 行。

关于python - Pandas - 在 CSV 文件的不同列中查找相同值的更快方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51816546/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com