r - 基于R中的多个最近匹配合并数据帧-6ren

r - 基于R中的多个最近匹配合并数据帧

转载作者：行者123 更新时间：2023-12-05 01:24:19

25

4

我有一个大的(例如减少和简化的)数据框 (df1) 和一个较小的数据框 (df2)。我的目标是为每个变量 a:d 返回 df1 的单行，该行与 df2 中每个 a:d 的值最匹配，这样我就有了 julian(索引)的值和 df1 中与 a-d 最接近的匹配项。

对于下面的示例代码，julian 的结果值类似于 9,20,10,24。

我已经用 dplyr 尝试了各种方法，例如 inner_join，但还没有找到一种方法来完成近似/最近匹配。我确实在 data.table 中看到了一种解决类似问题的方法，roll = "nearest"，但它似乎需要在单个列上设置一个键，我不太明白如何适应我的问题。

df1=structure(list(julian = 1:25, a = c(1.23651000172524, 3.53768533577433, 
4.67886484270661, 5.58620230847292, 6.50334496193416, 8.39024634778858, 
8.07046072833857, 10.3224760103505, 12.0294821656441, 13.0051126737986, 
13.6182967988946, 16.0093802756876, 16.3629833376647, 16.4032251800014, 
20.7793611866438, 22.8896881514255, 24.9047753769525, 27.693270690425, 
28.1354667109412, 28.7461982083997, 29.4226852088927, 30.0674285282579, 
30.5385160713231, 30.2693063298828, 31.2137034020167), b = c(0.0818659903121299, 
3.16872244667597, 5.18716715995415, 8.01357800633546, 9.03929283020061, 
9.75879226945875, 10.6840909493883, 11.993517678357, 13.5471390532808, 
14.5735221374674, 14.5629644871486, 14.3256165384972, 16.1055271965235, 
16.0846958235405, 16.2822070785324, 17.5707074083182, 18.0211458028877, 
18.2487504080849, 18.2748191242643, 20.2487076102867, 22.4499741093445, 
22.7261732975307, 23.3057791855779, 24.205539951076, 26.8265110564906
), c = c(1.53338066501425, 1.79175662364937, 3.87114113188336, 
7.25916181355392, 7.27167564643793, 9.45150932098826, 9.79130847937593, 
8.74357825723914, 7.65948191832803, 8.29615547570692, 10.0896110687571, 
10.622117084693, 12.8381085732359, 12.2479308117301, 14.1459672328209, 
15.1971928224078, 16.2405218836198, 17.6742310372874, 18.2592891390671, 
18.5239348003001, 17.8195001436016, 18.2938114977865, 19.3566862831869, 
20.2531494246964, 21.2021100407786), d = c(1.06048990933208, 
1.19478517029592, 2.01700007570706, 2.89122927429884, 2.84927053502588, 
1.99042435941095, 2.84730950732035, 5.24044843997076, 6.78411332171822, 
6.94262185334297, 8.46835997983591, 9.00847980399115, 10.0903648270813, 
12.7882885080826, 13.5944586952418, 13.8267656264867, 14.7989016465317, 
15.7181393355348, 17.3822790373397, 17.8017108178726, 19.8442415003192, 
21.1743994279903, 20.9854326674201, 22.0177140097714, 24.0917743668801
)), class = "data.frame", row.names = c(NA, -25L))

 df2=structure(list(a = 12.35, b = 19.63, c = 8.3, d = 22.5), class = "data.frame", row.names = c(NA, 
-1L))

最佳答案

在不知道您希望如何格式化结果的情况下，您可以使用您提到的 data.table 滚动连接和 roll="nearest" 来做到这一点。

在这种情况下，我将两组数据融合到长数据集，以便可以在单个连接中完成匹配。

library(data.table)
setDT(df1)
setDT(df2)

df1[
    match(
        melt(df1, id.vars="julian")[
            melt(df2, measure.vars=names(df2)),
            on=c("variable","value"), roll="nearest"]$julian,
        julian),
]
#   julian        a        b         c         d
#1:      9 12.02948 13.54714  7.659482  6.784113
#2:     20 28.74620 20.24871 18.523935 17.801711
#3:     10 13.00511 14.57352  8.296155  6.942622
#4:     24 30.26931 24.20554 20.253149 22.017714

如果你想为每个连接单独的表而不是你可以做这样的事情:

lapply(names(df2), \(var)  df1[df2, on=var, roll="nearest", .SD, .SDcols=names(df1)] )

关于r - 基于R中的多个最近匹配合并数据帧，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71460945/

25

4

0

文章推荐： c - 如何从头开始用 C 语言播放声音 (Linux)

文章推荐： raku - 这个循环还有哪些其他方式可以重写？

mysql - 获取最近一小时、最近 2 小时.....最近 n 小时的记录
我需要获取过去 24 小时的记录，但不能像这样按小时分组: SELECT HOUR(CompDate) AS hour, COUNT(1) AS action FROM mytable WHERE (
最近/经常联系自动完成的算法？
我们有一个自动完成列表，当您向某人发送电子邮件时会填充该列表，这一切都很好，直到列表变得非常大，您需要输入越来越多的地址才能找到您想要的地址, 这违背了自动完成的目的我在想应该添加一些逻辑，以便自动
android - 我们如何禁用导航软按钮主页，最近
我在 android 的锁屏上工作我们如何禁用导航软按钮，已经尝试了所有方法，systemoverlay但它不起作用，在按下主页按钮时它会终止服务和 Activity 。最佳答案后退按钮可以通过覆
javascript - 最近 7 天
我有一个报告创建时间为 2016-05-30，现在我需要从报告时间开始的最后 7 天。我怎样才能使用时刻？ report_create_time = moment('2016-05-30').form
r - 如何在向量中找到三个最接近(最近)的值？
我想找出向量中最接近的三个数字。就像是 v = c(10,23,25,26,38,50) c = findClosest(v,3) c 23 25 26 我试过 sort(colSums(as.ma
sql - 带附加“最近”行的SQL查询
考虑以下表结构： id speed 1 100 2 200 3 300 4 400 5 500 考虑以下查询："SELECT * FROM records WHERE
iframe - Youtube 嵌入实时聊天不适用于移动设备(最近)
我正在开发一个依赖 YouTube 直播和实时聊天(也来自 YouTube)的网络应用。事情进展顺利，突然嵌入的聊天功能无法在移动设备上运行。我试图在我这边找到一个错误或一些无效的配置，但我找不到。
android - 在“最近”屏幕上更改应用程序的预览图像
我正在制作一个 React Native 应用程序，它有一个安全部分，用户必须在其中输入密码才能解锁 protected 内容。问题是，当用户在锁定该部分之前切换到另一个应用程序时，将生成屏幕截图以及
sql - 最近 3 个月的声明
我有一条 SQL 语句 (SQL Server Management Studio)，我通过仪表板软件将数据传递到 where 语句中。用户可以选择年份(2013 年或现在的 2014 年)和月份(作
javascript - Jquery:最近()行删除不起作用
我有一个脚本可以添加一组行，使您能够在 SharePoint 列表表单中捕获其他访问者的信息。我有两个 anchor 标记，一个用于添加，另一个用于删除。当我添加一个新的访问者时它有效，当我删除访问者
swift - 最近 Swift 更新中关于变异结构的变化？
我正在学习斯坦福 iOS 类(class)，我有一个问题，我认为与最近的更新有关。这是代码部分: func evaluate(ops: [Op]) -> (result: Double?,remain
单击主页按钮时不显示 Android 应用程序 [最近]
我注意到我的应用有一个奇怪的行为。每当我按下主页按钮时，我的应用程序就会被杀死。我没有在应用程序堆栈中看到该应用程序。我可以看到之前启动的其他应用程序。最初我怀疑 android:launchMode
MySQL 最近 7 天被忽略
我需要获取过去 7 天内的所有付费和临时条目，但我总是收到所有退回的内容。我不确定我做错了什么，我已经阅读了这里的很多帖子，但无法理解它是什么。 MySQL 5.6(如果它与我一直在做的事情有什么不同
php - 最近 15 分钟
我的表有一列以 mysql time() 格式格式化。当它是一个值分配给名为 $preRemainOt 的 php 变量时我想重新安排到最近的 15 分钟 function roundTime($w
mysql - 最近 7 天的最后时间戳
我想获取过去 7 天内每天每个产品的最后时间戳。数据库中有数千条记录。我怎样才能通过查询来做到这一点。大约有 25 种不同的产品，每种产品每天大约有 50 个时间戳。表:构建数据 'Timesta
php mysql 按日期排序(最近)
我现在的代码正在从 SQL 中获取移动应用程序中的数据，首先添加显示，我需要将其设置为在我的 Android 应用程序中显示最后添加的第一个。我有如下所示的 api 代码，最新的是根据我的要求显示的，
mysql - 从所有列中选择最后(最近)填充的值
我有一张 table ，说 table 的描述为: | ID | SNO | c1 | c2 | c3 | ___________________________________ |
arrays - 如何找到一个向量中最接近(最近)的值到另一个向量？
我有两个大小相等的向量，例如 A=[2.29 2.56 2.77 2.90 2.05] and B=[2.34 2.62 2.67 2.44 2.52]. 我有兴趣在两个相同大小的向量 A 和 B 中
windows - 最近，我正在进行一个需要驱动器原始读/写扇区的项目
之前，我在这里发布了一个问题，询问有关如何从驱动器读取和写入数据的建议，而不是通过像“aaa.txt”这样的文件标签，而只是扇区..我被建议尝试阅读和写作....但新问题出现了……毛茸茸的参数 int
mysql - 最近 n 个月未登录的用户
我想删除在给定时间段内未登录的用户，但我稍后会根据结果选择时间段。所以我需要报告，其中我将收到过去 1 个月、2 个月...... n 个月内未登录的用户数量。我不太清楚如何在单个 mysql 查

首页

博学

6Ren·AI

商城

r - 基于R中的多个最近匹配合并数据帧