r - 提取数据帧的行索引，其条目对应于另一个数据帧的行-6ren

r - 提取数据帧的行索引，其条目对应于另一个数据帧的行

转载作者：行者123 更新时间：2023-12-04 09:45:54

25

4

我已经挣扎了一段时间，我找不到出路。这是我的问题。

我有 2 个数据框:

    df1 <- data.frame(replicate(3,sample(1:10,20,rep=TRUE)))
    df1
      X1 X2 X3
   1  10  1  9
   2   3  4  2
   3   7  6  8
   4   8 10  7
   5   5  7  5
   6   8  5  9
   7   9  8  4
   8   6  2  7
   9   2  9  6
   10  5  2  9

  df2 <- data.frame(df1[sample(nrow(df1),4), ])
  df2
     X1 X2 X3
  8   6  2  7
  3   7  6  8
  10  5  2  9
  7   9  8  4

我想创建一个 length(x) = length(df1) 的向量 x，其中每行 df1 包含 df2 中相应行的行索引(即 df1 和 df2 之间每一列的确切值相同)。

考虑一下:

    dim(df1)
    [1] 1096188  3 

    dim(df2)
    [1] 256  3

并且 df1 有几行具有相同的值(即相应的行索引将相同)，原则上 df1 中的所有行都应该与 df2 中的行匹配。

预期输出将是:

    x
   [1] 0 0 2 0 0 0 4 1 0 3

希望这足够清楚了......

你能帮我吗？

谢谢，

皮埃拉

最佳答案

这是 data.table 的选项:

require(data.table)

# first set the original orders (data.frame will be sorted when doing setkey)
setDT(df1)[, ori := .I]
setDT(df2)[, ind_df2 := .I]

# define keys
setkey(df1, X1, X2, X3)
setkey(df2, X1, X2, X3)

# compute the indices of the df1 line in df2
x <- df2[df1, ind_df2]
# put the nomatch to 0
x[is.na(x)] <- 0

# Finally, put the original orders back and delete the variable ori
x <- x[order(df1$ori)]
df2 <- df2[order(df2$ind_df2)]
df1[, ori:=NULL]
df2[, ind_df2:=NULL]

结果 x(使用您的数据):

x
#[1] 0 0 2 0 0 0 4 1 0 3

@Frank 建议的另一个更简单有效的选项:

setkeyv(setDT(df2)[,ii:=.I],setdiff(names(df2),"ii"))
x <- df2[df1]$ii
x[is.na(x)] <- 0

@nicola 答案、@Frank 建议和我的答案之间的一些基准，在 100000 行 df1 和 200 行 df2 , 稍微修改 nicola 的答案以获得所需的输出(两个函数都给出相同的结果，除了需要 as.numeric nicola 的):

所以:

set.seed(17)
df1 <- data.frame(replicate(3,sample(1:100,100000,rep=TRUE)))
df2 <- data.frame(df1[sample(nrow(df1),200), ])

nicola <- function(){x<-match(do.call(paste,df1),do.call(paste,df2), nomatch=0)}

cath <- function(){
          dt1 <-data.table(df1); dt1[, ori:=.I]
          dt2 <- data.table(df2); dt2[, ind_df2:=.I]
          setkey(dt1, X1, X2, X3)
          setkey(dt2, X1, X2, X3)
          x <- dt2[dt1, ind_df2]
          x[is.na(x)] <- 0
          x <- x[order(dt1$ori)]
          x
        }

Frank <- function(){dt1 <-data.table(df1);dt2 <- data.table(df2); setkey(setDT(dt2)[,ii:=.I],X1,X2,X3); x <- dt2[dt1]$ii;x[is.na(x)] <- 0}

require(microbenchmark)
microbenchmark(cath(), Frank(), nicola(), unit="relative", times=100)
    #Unit: relative
    # expr       min        lq     mean    median       uq      max neval cld
  #Frank()  1.000000  1.000000 1.000000  1.000000 1.000000 1.000000   100 a  
  # cath()  3.238195  3.099896 2.438342  2.767165 2.177365 1.447397   100  b 
 #nicola() 13.127820 12.476996 8.761549 10.899191 7.292086 2.783436   100   c

关于r - 提取数据帧的行索引，其条目对应于另一个数据帧的行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31339923/

25

4

0

文章推荐： r - 函数 .C -- 参数设置编译失败

文章推荐： r - 求和直到达到给定值

文章推荐： Jenkins 正常运行时间 - 自上次重启以来的时间

文章推荐： c - secret 服务器协议(protocol)保持软件免费

ios - 如何导航回已删除的 PageViewController 条目/更改 PageViewController 条目
情况:我想从数据条目列表导航回我的 PageViewController。 before 和 previous 函数起作用 func pageViewController(pageViewContro
java - 如何避免 Gradle 的 osgi 插件为私有(private)包生成 export-pacakge 条目，为嵌入式依赖项生成 import-package 条目
尊敬的 StackOverflow 用户我有一个 gradle 项目，我想将其工件转换为 osgi 包。在这个包中，我有: 我不想导出的包(可能不会出现在 list 的 Export-Package
android - AlarmManager 条目
我为我的 PendingIntent 设置了一个警报。现在我想在我的 Activity 中显示是否设置了此警报。 Intent service = new Intent(context, MyServ
一个表中最常出现在另一表中的 MYSQL 条目
我有 2 个表、作者和书籍 authors 包含唯一的 IDauthorId 书籍也包含此作为外键我需要知道书籍数量最多的作者。如果 2 个或更多作者并列最多书籍，我需要显示这两位作者我已经能够通
mysql - 根据重复的列值删除行/条目
我有一个名为 prospective_shop 的表，其中一个列名称是“用户名”。用户名未设置为主键，但我想删除所有具有重复用户名的行。我怎样才能以最快的方式做到这一点？我尝试执行以下操作: ALT
android - 如何阅读添加到日历的事件/条目？
我现在可以添加条目了。在我的应用程序中，用户可以在他的日历上输入约会/事件。但在他这样做之前，它应该向他显示他已经添加的事件。它应该从日历中获取事件并将其显示给他。这该怎么做？我被困在这部分。提前致谢
在内核中创建一个简单的只写 proc 条目
#include #include #include #include #include #include char *msg; ssize_t write_proc(struct file
从内核模块创建 sysfs 条目
我想将大于 1024 个字符的字符串传递到我的模块(文件系统)。由于内核参数限制为 1024 个字符，someone recommended改为使用 sysfs。我试图包括 this example
python - SQLAlchemy:相关子查询中仍然存在 FROM 条目
我正在尝试使用 SQLAlchemy 构建以下查询(用作包含查询的子查询，该查询定义名为 tbl_outer 的别名): SELECT max(tbl.ts) AS max_1 FROM tbl WH
Java - 仅比较特定键的两个 Maps 条目
假设我有两张 map : Map map1 = Map.of( "a", "1", "b", "2", "c", "3", "x
VBA:从每个类别中提取前 'x' 条目
通过简化示例，假设您有以下数据集: A B C Name Group Amount Dave A 2 Mike B 3 Adam C 4
apache - 三级域的 DNS 条目
我正在尝试在我的服务器上创建一个三级域虚拟主机。我希望配置设置正确，但我得到一个 ERR_NAME_NOT_RESOLVED错误。我已经读到我必须在某处“添加 DNS 条目”以便解析名称，但我该怎么
regex - 我可以使用什么正则表达式来查找逗号分隔列表中的 Nᵗʰ 条目？
我需要一个可用于在逗号分隔列表中查找第 N 个条目的正则表达式。例如，假设此列表如下所示: abc,def,4322,mail@mailinator.com,3321,alpha-beta,43 .
GWT .hgignore/.gitignore 条目
GWT 应用程序(在 Eclipse 中开发)的源代码管理忽略文件中的典型条目是什么？最佳答案我会推荐: 你leave the eclipse files (.project, .classpat
sql - 需要帮助为没有订单的月份生成 NULL 条目
我必须创建显示表 (Tbl) 中所有字段的输出，并创建一个额外的列来按月计算每个客户的累计总和(例如，如果客户在 4 月份有两次销售，新列将具有这些销售额和两行中任何先前销售额的总和)。我能做的就这么
docker - 使用从属性文件创建的 ConfigMap 条目
文档 ( http://kubernetes.io/docs/user-guide/configmap/ ) 上用于使用值的示例基于 ConfigMap，其中每个数据条目都是一对/值。例子: apiV
autohotkey - 创建以冒号结尾的 AutoHotkey 条目
我有一个奇怪的错字，我一遍又一遍地犯，而不是实际工作我的打字技巧，我想编辑我的 AutoHotkey 脚本来弥补这一点。有时，当我输入大写字母时，我会点击:按钮并输入“I:”，我希望 AHK 仅用字
x86 - 初始加载后如何更新 GDT 条目？
使用 lgdt 初始化 GDT 并将其加载到 GDTR 后，稍后如何更新 GDT？如果我使用 sgdt 命令获取基地址，然后更新或添加条目，然后使用 lgdt 再次重新加载，我是否正确？还有其他方法
c# - 条目(数据库)已添加
我有两个应用程序共享同一个数据库，即 API 和 MVC5 应用程序。两者都在本地主机上运行良好，但在部署到我的 Azure 帐户时出现此错误 Configuration Error Descrip
powershell - 从数组中删除 'lesser' 条目
我正在尝试修剪我拥有的一些文件。我将为您保存到目前为止我编写的野兽，并通过提供虚构代码使其保持简单。让我们来看看这个数组: [System.String[]]$Collection = 'Invit

首页

博学

6Ren·AI

商城

r - 提取数据帧的行索引，其条目对应于另一个数据帧的行