gpt4 book ai didi

python - dask dataframe 删除重复的索引值

转载 作者:行者123 更新时间:2023-12-01 02:24:35 24 4
gpt4 key购买 nike

我正在使用带有 python 2.7 的 dask dataframe,并希望从我的 df 中删除重复的索引值。

当使用 pandas 时,我会使用

df = df[~df.index.duplicated(keep = "first")]

而且它有效

当尝试对 dask dataframe 执行相同操作时,我得到

AttributeError: 'Index' object has no attribute 'duplicated'

我可以重置索引,然后使用作为索引的列来删除重复项,但如果可能的话我想避免它

我可以使用 df.compute() 并删除重复的索引值,但这个 df 对于内存来说太大了。

如何使用 dask 数据帧从数据帧中删除重复的索引值?

最佳答案

我认为您需要将 index 转换为 Series by to_series , keep='first' 应该省略,因为 duplicated 中的默认参数:

df = df[~df.index.to_series().duplicated()]

关于python - dask dataframe 删除重复的索引值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47534099/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com