R - 使用键连接数据帧，然后使用近似日期-6ren

R - 使用键连接数据帧，然后使用近似日期

转载作者：行者123 更新时间：2023-12-02 02:54:59

25

4

问题

我正在尝试使用 3 个 ID 列(或 1 列，如果我将 3 个粘贴在一起)合并两个数据帧，其中一个是日期时间变量，并且两个数据帧之间的差异最多可达 1 秒。

背景

我从带有事务记录的库中提取了两个数据帧。出于某种原因， checkout 和 checkin 是分开记录的，没有唯一的“交易 ID”来匹配它们。我想匹配它们。 “ checkout ”数据框有每个 checkout 项目的记录，包括到期日(应归还项目的时间)。 “签到”数据框对 checkin 的每个项目都有一个记录，包括截止日期。不幸的是，由于两个原因，我很难将这些数据帧合并在一起:

没有唯一的事务 ID 来匹配这些表。 (为什么？我不知道。)

对于同一笔交易，每笔交易的“due_date”字段最多可以有 1 秒的差异。

由于due_date 的变化似乎是随机发生的，因此没有任何方法可以确定两个due_date 对于哪些记录相等或相差1 秒。否则，我可以减去(或增加)一秒钟使它们相等。

数据

这是我正在使用的数据示例:

library(dplyr)
library(lubridate)

check_in <- tribble(
  ~ patron_id, ~item_id, ~checked_in, ~due_date,
    "A", "Z", "2018-04-16 07:00:00", "2018-04-16 08:00:00",
    "A", "Y", "2018-04-17 07:30:01", "2018-04-17 08:30:01",
    "B", "X", "2018-04-17 07:00:01", "2018-04-17 08:00:01",
    "B", "Z", "2018-04-17 08:00:01", "2018-04-17 09:00:01",
    "B", "Z", "2018-04-09 09:00:01", "2018-04-09 10:00:01",
    "C", "V", "2018-04-09 09:00:01", "2018-04-09 10:00:01",
    "C", "X", "2018-04-09 09:00:01", "2018-04-09 10:00:01")

check_out <- tribble(
  ~ patron_id, ~item_id, ~checked_out, ~due_date,
    "A", "Z", "2018-04-16 06:00:00", "2018-04-16 08:00:01",
    "A", "Y", "2018-04-17 06:30:01", "2018-04-17 08:30:00",
    "B", "X", "2018-04-17 06:00:01", "2018-04-17 08:00:00",
    "B", "Z", "2018-04-17 07:00:01", "2018-04-17 09:00:00",
    "B", "Z", "2018-04-09 08:00:01", "2018-04-09 10:00:01",
    "C", "V", "2018-04-09 08:00:01", "2018-04-09 10:00:01",
    "C", "X", "2018-04-09 08:00:01", "2018-04-09 10:00:00")

check_in$due_date <- ymd_hms(check_in$due_date)
check_in$checked_in <- ymd_hms(check_in$checked_in)

check_out$due_date <- ymd_hms(check_out$due_date)
check_out$checked_out <- ymd_hms(check_out$checked_out)

读者 ID 是借书人的唯一 ID。项目 ID 是书的唯一 ID。 checkout 是指图书被 checkout 的时间。 Checked In 是书被 checkin 的时间。而Due Date 是书的到期时间。

对于此示例数据，我将所有到期日设为退房日期后 2 小时。我还使入住日期等于退房日期后 1 小时。

期望输出

我想从 check_in 数据框中获取“checked_in”变量，并将其与 check_out 数据框中的相应事务进行匹配。输出将是这样的，但可能带有某种生成的交易 ID:

desired_output <- tribble(
  ~patron_id, ~item_id, ~checked_out, ~checked_in, ~due_date,
    "A", "Z", "2018-04-16 06:00:00", "2018-04-16 07:00:00", "2018-04-16 08:00:01",
    "A", "Y", "2018-04-17 06:30:01", "2018-04-17 07:30:01", "2018-04-17 08:30:00",
    "B", "X", "2018-04-17 06:00:01", "2018-04-17 07:00:01", "2018-04-17 08:00:00",
    "B", "Z", "2018-04-17 07:00:01", "2018-04-17 08:00:01", "2018-04-17 09:00:00",
    "B", "Z", "2018-04-09 08:00:01", "2018-04-09 09:00:01", "2018-04-09 10:00:01",
    "C", "V", "2018-04-09 08:00:01", "2018-04-09 09:00:01", "2018-04-09 10:00:01",
    "C", "X", "2018-04-09 08:00:01", "2018-04-09 09:00:01", "2018-04-09 10:00:00")

我试过的

尝试 #1:

我已尝试有条件地合并，如 this 中所述帖子，有以下修改:

check_out <- check_out %>%
             mutate(transaction_id = paste(patron_id,"-",item_id,sep=""))
check_in <- check_in %>%
              mutate(transaction_id = paste(patron_id,"-",item_id,sep=""))

output <- merge(check_out, check_in, by="transaction_id")[abs(difftime(check_out$due_date, check_in$due_date, units = "secs"))<=1,]

但是此方法不处理相同的事务 ID(显然)并且创建的记录比实际数量多。

尝试 #2:

恢复到原始数据帧，我尝试了 this post 中的解决方案，有以下修改:

output <- cbind(check_out, check_in[ 
                  sapply(check_out$due_date, 
                    function(x) which.min(abs(difftime(x, check_in$due_date)))), ])

但是这种方法不考虑“交易 ID”，或者更确切地说，我用来创建某种唯一 ID 的两个关键变量。因此，输出错误。

其他不成功的尝试:

this article 中提到的模糊连接. (以及提到的其他基于 R 的解决方案。)

此 response ，它使用过滤。

不幸的是，我无法让这些工作。我对这些方法的工作方式没有信心，也没有产生我想要的结果。很可能是用户错误，因为其他人似乎能够使类似的事情发挥作用。

感谢

先谢谢你，如果你能帮助我。我倾向于使用 Tidyverse 提供的工具，但我也愿意使用其他工具和方法。我试图确保在寻找其他解决方案时我做了尽职调查，但是如果您发现我错过了一个重要的帖子，请将其标记为重复并按照我的方式发送该帖子。

如果我可以提供任何其他信息或澄清上述任何细节，请告诉我。

最佳答案

会用这个:

inner_join(check_in, check_out, by = c("patron_id", "item_id")) %>%
  filter(abs(difftime(due_date.y, due_date.x, units= "secs"))<=as.difftime(1, format = "%S", units = "secs"))

说明:简单连接 + 过滤时间差 <= 1 秒的行

关于R - 使用键连接数据帧，然后使用近似日期，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49906499/

25

4

0

文章推荐： tfs - 如何以编程方式登录到 VSTS

文章推荐： javascript - 按属性值查找元素

文章推荐： java - 我应该如何用Java解析这个简单的文本文件？

文章推荐： r - 如何更改使用ggplot2获得的图表条的颜色条

Python Pi 近似
所以我必须用以下方法来近似 Pi:4*(1-1/3+1/5-1/7+1/9-...)。它也应该基于迭代次数。所以函数应该是这样的: >>> piApprox(1) 4.0 >>> piApprox(1
组合独立集/汉明距离的算法/近似
输入:图 G 输出:多个独立集，使得一个节点对所有独立集的成员资格是唯一的。因此，节点与它自己的集合中的任何节点都没有连接。这是一个示例路径。由于这里需要澄清，因此再次改写: 将给定的图划分为多个集
logarithm - 定点中的 Log2 近似
我已经使用查找表和低阶多项式近似实现了定点 log2 函数，但对整个 32 位定点范围 [-1,+1) 的准确度不太满意。输入格式为 s0.31，输出格式为 s15.16。我在这里发布这个问题，以便
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它可以帮助我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注
r - 近似 R 中二项式随机变量之和的分布
我的目标是近似二项式变量总和的分布。我使用以下纸张The Distribution of a Sum of Binomial Random Variables作者:肯·巴特勒和迈克尔·斯蒂芬斯。我想
bezier - 近似 N 次贝塞尔曲线
我知道有方法 approximate cubic Bezier curves ( this page 也是一个很好的引用)，但是有没有更快的方法来逼近 N 次贝塞尔曲线？还是只能使用下面的概括？来自
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它有助于我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注意
使用莱布尼茨公式的 C++ Pi 近似
我是 C++ 和编码本身的初学者，所以请原谅任何词汇错误。我找不到这个具体问题，但在互联网上找到了类似的问题，但我仍然很难获得我需要的结果。所以我使用莱布尼茨公式来近似 pi，即: pi = 4 ·
Android - 通过模糊/近似/相似匹配查找联系人
有多种方法可以通过显示名称查找联系人。例如这个答案Android - Find a contact by display name 但是我需要找到模糊匹配的联系人。例如如果找不到“Kim”，我需要返回
c++ - 近似 e - 获得尽可能多的精度数字
我一直在尝试使用以下代码使用级数表示来近似 e 以获得尽可能多的精度数字，但无论我计算多少项，精度数字的数量似乎都保持不变。即: 2.718281984329223632812500000000000
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它可以帮助我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注
algorithm - 大O，您如何计算/近似？
大多数拥有CS学位的人当然会知道Big O stands for是什么。它可以帮助我们评估算法的可扩展性。但是我很好奇，您如何计算或估算算法的复杂性？最佳答案我会尽力在这里简单地解释它，但要注
algorithm - 大O，您如何计算/近似？
大多数拥有计算机科学学位的人肯定知道什么是Big O stands for。它有助于我们衡量一个算法的实际效率，如果您知道在what category the problem you are try
algorithm - 大O，您如何计算/近似？
大多数拥有计算机科学学位的人肯定知道什么是Big O stands for。它有助于我们衡量一个算法的实际效率，如果您知道在what category the problem you are try
algorithm - 将四舍五入小数转换为(近似)激进值？
我做了很多随机的数学程序来帮助我完成作业(合成除法是最有趣的)，现在我想反转一个激进的表达式。例如，在我方便的 TI 计算器中我得到 .2360679775 好吧，我想将该数字转换为等效的无理数表达
c++ - 需要更快地计算(近似)方差
我可以通过 CPU 分析器看到，compute_variances() 是我项目的瓶颈。 % cumulative self self total
algorithm - Big O，你如何计算/近似？
大多数拥有 CS 学位的人肯定知道什么 Big O stands for . 它帮助我们衡量算法的可扩展性。但我很好奇，你如何计算或近似算法的复杂性？最佳答案我会尽我所能用简单的术语在这里解释它
python - Python 中的阿基米德 PI 近似
这是迄今为止我的代码， from math import * def main(): sides = eval(input("Enter the number of sides:"))
c++ - 近似 e^1 :( 的错误逻辑
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
algorithm - Big O，你如何计算/近似？
大多数拥有 CS 学位的人肯定知道什么 Big O stands for . 它帮助我们衡量算法的扩展性。但我很好奇，你如何计算或近似算法的复杂性？最佳答案我会尽我所能用简单的术语在这里解释它，

首页

博学

6Ren·AI

商城

R - 使用键连接数据帧，然后使用近似日期