r - left_join (dplyr) 下一个可用日期-6ren

r - left_join (dplyr) 下一个可用日期

转载作者：行者123 更新时间：2023-12-01 13:28:28

24

4

我在“R”中有 2 个数据集。

第一个数据库包含特定日期:

    Value       Date   
#   20          2017-10-19 
#   19          2017-10-23 
#   19          2017-11-03 
#   20          2017-11-10

第二个包含过去 5 年的股票指数水平

     Date       Index
#    2017-11-10 13.206,35
#    2017-11-03 13.378,96
#    2017-10-25 13.404,58
#    2017-10-19 13.517,98

现在我想通过从第一个数据集“DB”中搜索日期并从第二个数据集“Hist”中添加该日期的正确索引值来合并。

我所做的是使用 left_join 函数:

DB <- left_join(DB, Hist, by = "Date")

问题是第一个数据集中的某些日期是公共(public)假期，而第二个数据集“Hist”中没有可用的数据。所以我有一些“NA”。

  Value   Date         Index
# 20      2017-10-19   13.517,98
# 19      2017-10-23   NA
# 19      2017-11-03   13.378,96
# 20      2017-11-10   13.206,35

我正在寻找的是取下一个可用日期的值而不是添加 NA。

示例:而不是添加 NA 取 2017-10-25 的索引(2 天后)

  Value   Date         Index
# 20      2017-10-19   13.517,98
# 19      2017-10-23   13.404,58
# 19      2017-11-03   13.378,96
# 20      2017-11-10   13.206,35

有没有人有想法。提前致谢!

最佳答案

原始请求

以下是一个选项。它使用 full_join ，然后是 fill函数来估算缺失值。

library(tidyverse)

DB_final <- DB %>%
  full_join(Hist, by = "Date") %>%
  arrange(Date) %>%
  fill(Index, .direction = "up") %>%
  filter(!is.na(Value))
DB_final
#   Value       Date     Index
# 1    20 2017-10-19 13.517,98
# 2    19 2017-10-23 13.404,58
# 3    19 2017-11-03 13.378,96
# 4    20 2017-11-10 13.206,35

但是，用户需要提前知道填充方向( up 或 down)。如果用户不知道，它可能没有用。

根据最近日期估算缺失值

这是另一种选择，我认为它更强大。它将使用 Index 估算缺失值从最近的日期开始。

第 1 步:查找最近的日期

# Collect all dates
Date_vec <- sort(unique(c(DB$Date, Hist$Date)))

# Create a distance matrix based on dates than convert to a data frame
dt <- Date_vec %>%
  dist() %>%
  as.matrix() %>%
  as.data.frame() %>%
  rowid_to_column(var = "ID") %>%
  gather(ID2, Value, -ID) %>%
  mutate(ID2 = as.integer(ID2)) %>%
  filter(ID != ID2) %>%
  arrange(ID, Value) %>%
  group_by(ID) %>%
  slice(1) %>%
  select(-Value)

dt$ID <- Date_vec[dt$ID]
dt$ID2 <- Date_vec[dt$ID2]  

names(dt) <- c("Date1", "Date2")

dt
# # A tibble: 5 x 2
# # Groups:   ID [5]
#       Date1      Date2
#      <date>     <date>
# 1 2017-10-19 2017-10-23
# 2 2017-10-23 2017-10-25
# 3 2017-10-25 2017-10-23
# 4 2017-11-03 2017-11-10
# 5 2017-11-10 2017-11-03

dt显示所有日期中最近的日期。

步骤 2:执行多重连接

加入 DB和 dt ，然后加入 Hist两次基于不同的日期列。

DB2 <- DB %>% left_join(dt, by = c("Date" = "Date1")) 

DB3 <- DB2 %>%
  left_join(Hist, by = "Date") %>%
  left_join(Hist, by = c("Date2" = "Date")) 
DB3
#   Value       Date      Date2   Index.x   Index.y
# 1    20 2017-10-19 2017-10-23 13.517,98      <NA>
# 2    19 2017-10-23 2017-10-25      <NA> 13.404,58
# 3    19 2017-11-03 2017-11-10 13.378,96 13.206,35
# 4    20 2017-11-10 2017-11-03 13.206,35 13.378,96

第 3 步:完成索引

如果 Index.x 中有值, 使用它，否则使用 Index.y 中的值.

DB4 <- DB3 %>% 
  mutate(Index = ifelse(is.na(Index.x), Index.y, Index.x)) %>%
  select(Value, Date, Index)
DB4
#   Value       Date     Index
# 1    20 2017-10-19 13.517,98
# 2    19 2017-10-23 13.404,58
# 3    19 2017-11-03 13.378,96
# 4    20 2017-11-10 13.206,35

DB4是最终的输出。

数据

DB <- structure(list(Value = c(20L, 19L, 19L, 20L), Date = structure(c(17458, 
                                                                       17462, 17473, 17480), class = "Date")), class = "data.frame", .Names = c("Value", 
                                                                                                                                                "Date"), row.names = c(NA, -4L))


Hist <- structure(list(Date = structure(c(17480, 17473, 17464, 17458), class = "Date"), 
                       Index = c("13.206,35", "13.378,96", "13.404,58", "13.517,98"
                       )), class = "data.frame", .Names = c("Date", "Index"), row.names = c(NA, 
                                                                                            -4L))

关于r - left_join (dplyr) 下一个可用日期，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47243249/

24

4

0

文章推荐： java - 如何以编程方式创建信任/ keystore ？

文章推荐： C - 获取信令进程的进程 ID

文章推荐： java - 如何在 spring 中将集合对象绑定(bind)到 Controller

文章推荐： javascript - 谷歌图表 - 时间轴 : Scaling Axis

mysql join 选择两个表之间的最小(日期)和最大(日期)
我的数据库中有两张表，一张用于 field ，另一张用于预订。我需要的是一个查询来选择所有未预订的 field 。见下文: 餐 table 预订具有以下字段: bk_id venue_id 作为(预订
php - 表格日期输入从(日期)到(日期)或我不知道一个或两个选择
嗨，我是编码新手，我有一些培训项目，其中包括从 HTML 表单输入 MySQL 数据库。它就像你玩过的游戏的日志。第一个日期输入是您开始游戏的时间，第二个日期输入是您完成游戏的时间。但我需要检查器或类
mysql - 如何从同一张表中获取最小(日期)、最大(日期)及其数量？
我是这个 sql 编码的新手，我正在尝试学习新的东西。因此，我创建了一个交货表，其中包含一些属性，如商品代码、交货日期、交货数量。所以如何从同一张表中获取第一个交货日期(最小日期)和交货数量以及最晚交
PHP 日期 ISO 8601 日期时区
我从支付网关返回了这个日期 2014-05-15T08:40:52+01:00 我得到 2014-05-15T08:40:52 但我无法识别时区 +01:00 的含义我的位置时区是 UTC−06:0
sql - 从一列中选择最小(日期)、最大(日期)和按天分组 - SQL
我快要疯了，请帮忙。我有一列包含日期时间值。我需要找到每天的最小值和最大值。数据看起来像这样 2012-11-23 05:49:26.000 2012-11-23 07:55:43.000
javascript - {{x.日期 |日期 :'hh:mm' }} 不起作用
我从 json 数据中获取日期为 2015 年 4 月 15 日晚上 10:15我只想在 html 页面中显示 json 响应数据的时间，例如 10:15 PM这里我放了我的js函数和html代码 J
c# - 将 .NET 日期/时间格式字符串转换为 Javascript 日期/时间格式字符串
是否有 javascript 库或其他机制允许我将 .NET 日期/时间格式字符串(即 yyyy-MM-dd HH:mm:ss)传递给 javascript函数并让它相应地解析提供的日期时间值？我一直
javascript - 如何将 UTC 日期/时间转换为 EST 日期/时间
我正在使用以下代码以正确的格式获取当前的 UTC 时间，但客户返回并要求时间戳现在使用 EST 而不是 UTC。我搜索了 Google 和 stackoverflow，但找不到适用于我现有代码的答案。
r - 如何找到值低于 0 的 5 行或更多行(日期)系列的第一行(日期)
我有以下日期的平均温度数据。我想找到连续至少 5 天低于或高于 0 摄氏度的开始日期。 date_short mean.temp 1 2018-05-18 17.54 2 2018-05-19
javascript - 日期.值 = 新日期(日期.值);在 IE11 中不起作用
它可以在其他网络浏览器中使用，但 IE11 返回无效日期。为了调试我使用了下面的代码。 console.log('before - ' + date.value); date.value = new
javascript - 将 JSON 日期/日期(1388624400000)/转换为 Excel 中的日期
我在 Excel 中有一个数据的 Web 提取，其中日期列带有/Date(1388624400000)/。我需要在 Excel 中将其转换为日期。最佳答案能够从 here 中推断出它. 假设字符串
node.js - Mongoose 更新条件 PDT 日期/型号 ISO 日期
嗨，我的 Schmema 有一个带有 ISO 日期的字段: ISODate("2015-04-30T14:47:46.501Z") Paypal 在成功付款后以该形式返回日期对象: Time/Date
mysql - 如何在 MySQL 服务器中将最小(日期)和最大(日期)之间的小时分割为 4 小时板
我的 table : CREATE TABLE `tbdata` ( `ID` INT(10) NOT NULL AUTO_INCREMENT, `PatientID` INT(10) NOT
linux - Bash:日期 "%b"和日期 "%h"(当然还有)日期 "%B"给出月份的全名？
我正在 Ubuntu 服务器 12.04 中编写一个 shell 脚本，它应该比较日志文件中的一些数据。在日志文件中，日期以以下格式给出: [Mon Apr 08 15:02:54 2013] 如您所
mysql - 当在年(日期)和月(日期)上使用 MYSQL GROUP BY AND ROLLUP 时，我无法将 Null 更改为 'Total'
我想使用 GROUP BY WITH ROLLUP 创建一个表并获取总行数而不是 null。 $sql ="SELECT IF(YEAR(transaktioner.datum
Django 错误 : could not parse the remainder: ': "Y-m-d "' from ' post. 日期|日期: "Y-m-d"'
我正在创建博客文章，在成功迁移我的博客文件后，当我转到我网站的博客页面时返回一个错误(无法解析其余部分:':“Ymd”'来自'post.date|date: "Ymd"') 我似乎无法确定这是语法错误
JavaScript 日期
我正在尝试获取要插入到 CAML 查询中的月份范围，即:2010-09-01 和 2010-09-30。我使用以下代码生成这两个值: var month = "10/2010"; var month
JavaScript 日期
如何将代码document.write("直到指定日期")更改为writeMessage(date)中的日期？此外，writeMessage(date) 中的日期未正确显示(仅显示年份)。感谢您帮助解
更改目录时间/日期
我在 Windows (XP) 和 Linux 上都尝试过 utime()。在 Windows 上我得到一个 EACCES 错误，在 Linux 上我没有得到任何错误(但时间没有改变)。我的 utim
r - (日期)内的总和
我正在尝试计算发生在同一日期的值的总和(在 XYZmin 中)。我的数据看起来像这样， bar <- structure(list(date = structure(c(15622, 15622,

首页

博学

6Ren·AI

商城

r - left_join (dplyr) 下一个可用日期