gpt4 book ai didi

julia:在数据框中查找重复的行

转载 作者:行者123 更新时间:2023-12-03 15:57:59 28 4
gpt4 key购买 nike

我知道大型数据帧中有重复的行,因为 unique() 会导致较小的数据帧。

我想获取这些重复项以帮助找出它们的来源。

我看到对涉及早期版本重复项的各种函数的引用,但不能使它们中的任何一个适用于 .6

那么如何创建一个包含另一个数据帧中包含的重复行的数据帧?

最佳答案

DataFrames 有 nonunique返回具有真值的逻辑掩码的函数,其中行不唯一:

julia> df = DataFrame(X=rand(1:3, 10), Y=rand(10:13,10))
10×2 DataFrames.DataFrame
│ Row │ X │ Y │
├─────┼───┼────┤
│ 1 │ 2 │ 11 │
│ 2 │ 1 │ 10 │
│ 3 │ 2 │ 13 │
│ 4 │ 2 │ 13 │
│ 5 │ 2 │ 13 │
│ 6 │ 1 │ 10 │
│ 7 │ 2 │ 10 │
│ 8 │ 3 │ 13 │
│ 9 │ 2 │ 12 │
│ 10 │ 1 │ 11 │

julia> nonunique(df)
10-element Array{Bool,1}:
false
false
false
true
true
true
false
false
false
false
您可以使用 findall 将逻辑掩码转换为线性索引。 :
julia> findall(nonunique(df))
3-element Array{Int64,1}:
4
5
6

关于julia:在数据框中查找重复的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45021431/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com