gpt4 book ai didi

R - 基于两列查找并列出重复的行

转载 作者:行者123 更新时间:2023-12-04 09:23:47 24 4
gpt4 key购买 nike

使用 R. Base 包、dplyr 或 data.table 都可以让我使用。我的数据是 ~1000 行 x 20 列。我预计大约有 300 个重复项。

我想做类似以下的事情,但有一个改动:

Match/group duplicate rows (indices)

我想找到,不是完全重复的行,而是在两列中重复的行。
例如,给定这个输入表:

File     T.N     ID     Col1     Col2
BAI.txt T 1 sdaf eiri
BAJ.txt N 2 fdd fds
BBK.txt T 1 ter ase
BCD.txt N 1 twe ase

如果我只想在 T.N 和 ID 中找到重复项,我最终会得到下表:
File     T.N     ID     Col1     Col2
BAI.txt T 1 sdaf eiri
BBK.txt T 1 ter ase

最佳答案

这是一个使用 duplicated 的选项两次,第二次以及 fromLast = TRUE选项,因为它仅从重复值开始返回 TRUE

dupe = data[,c('T.N','ID')] # select columns to check duplicates
data[duplicated(dupe) | duplicated(dupe, fromLast=TRUE),]

# File T.N ID Col1 Col2
#1 BAI.txt T 1 sdaf eiri
#3 BBK.txt T 1 ter ase

关于R - 基于两列查找并列出重复的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35951207/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com