r - 在 df2 的日期时间中使用 df1 的 "hour"和 "min"上的条件合并 2 个数据帧-6ren

r - 在 df2 的日期时间中使用 df1 的 "hour"和 "min"上的条件合并 2 个数据帧

转载作者：行者123 更新时间：2023-12-04 12:12:08

25

4

我有一个这样的数据框df.sample

id <- c("A","A","A","A","A","A","A","A","A","A","A")
date <- c("2018-11-12","2018-11-12","2018-11-12","2018-11-12","2018-11-12",
          "2018-11-12","2018-11-12","2018-11-14","2018-11-14","2018-11-14",
          "2018-11-12")
hour <- c(8,8,9,9,13,13,16,6,7,19,7)
min <- c(47,59,6,18,22,36,12,32,12,21,47)
value <- c(70,70,86,86,86,74,81,77,79,83,91)
df.sample <- data.frame(id,date,hour,min,value,stringsAsFactors = F) 
df.sample$date <- as.Date(df.sample$date,format="%Y-%m-%d")

我有另一个像这样的数据框df.state

id <- c("A","A","A")
starttime <- c("2018-11-12 08:59:00","2018-11-14 06:24:17","2018-11-15 09:17:00")
endtime <- c("2018-11-12 15:57:00","2018-11-14 17:22:16","2018-11-15 12:17:32")
state <- c("Pass","Pass","Pass")

df.state <- data.frame(id,starttime,endtime,state,stringsAsFactors = F) 
df.state$starttime <- as.POSIXct(df.state$starttime,format="%Y-%m-%d %H:%M:%S")
df.state$endtime <- as.POSIXct(df.state$endtime,format="%Y-%m-%d %H:%M:%S")

我正在尝试根据条件合并这两个数据框

如果 df.sample 中的 hour 和 min 在 starttime 和 endtime的df.state，然后将state = Pass合并到df.sample中。

例如，df.sample 中的第 2 行有 hour = 8，min = 59，因为它在 starttime = 2018-11-12 08:59:00 在df.state中，添加值Pass

这是我期望的输出

   id       date hour min value state
    A 2018-11-12    8  47    70      
    A 2018-11-12    8  59    70  Pass
    A 2018-11-12    9   6    86  Pass
    A 2018-11-12    9  18    86  Pass
    A 2018-11-12   13  22    86  Pass
    A 2018-11-12   13  36    74  Pass
    A 2018-11-12   16  12    81      
    A 2018-11-14    6  32    77  Pass
    A 2018-11-14    7  12    79  Pass
    A 2018-11-14   19  21    83      
    A 2018-11-12    7  47    91

我能够像这样合并这两个数据帧，但无法在 df.state 的开始时间和结束时间中查找 df.sample 的小时和分钟

library(tidyverse)
df.sample <- df.sample %>%
  left_join(df.state)

谁能给我指出正确的方向

最佳答案

如果您碰巧有大数据帧，使用 data.table 包中的非相等连接会更快更容易: Benchmark | Video

library(data.table)

## convert both data.frames to data.tables by reference
setDT(df.sample)
setDT(df.state) 

## create a `time` column in df.sample 
df.sample[, time := as.POSIXct(paste0(date, " ", hour, ":", min, ":00"))]
## change column order
setcolorder(df.sample, c("id", "time"))

# join by id and time within start & end time limits
# "x." is used so we can refer to the column in other data.table explicitly
df.state[df.sample, .(id, time, date, hour, min, value, state = x.state), 
         on = .(id, starttime <= time, endtime >= time)]
#>     id                time       date hour min value state
#>  1:  A 2018-11-12 08:47:00 2018-11-12    8  47    70  <NA>
#>  2:  A 2018-11-12 08:59:00 2018-11-12    8  59    70  Pass
#>  3:  A 2018-11-12 09:06:00 2018-11-12    9   6    86  Pass
#>  4:  A 2018-11-12 09:18:00 2018-11-12    9  18    86  Pass
#>  5:  A 2018-11-12 13:22:00 2018-11-12   13  22    86  Pass
#>  6:  A 2018-11-12 13:36:00 2018-11-12   13  36    74  Pass
#>  7:  A 2018-11-12 16:12:00 2018-11-12   16  12    81  <NA>
#>  8:  A 2018-11-14 06:32:00 2018-11-14    6  32    77  Pass
#>  9:  A 2018-11-14 07:12:00 2018-11-14    7  12    79  Pass
#> 10:  A 2018-11-14 19:21:00 2018-11-14   19  21    83  <NA>
#> 11:  A 2018-11-12 07:47:00 2018-11-12    7  47    91  <NA>

### remove NA
df.state[df.sample, .(id, time, date, hour, min, value, state = x.state), 
         on = .(id, starttime <= time, endtime >= time), nomatch = 0L]
#>    id                time       date hour min value state
#> 1:  A 2018-11-12 08:59:00 2018-11-12    8  59    70  Pass
#> 2:  A 2018-11-12 09:06:00 2018-11-12    9   6    86  Pass
#> 3:  A 2018-11-12 09:18:00 2018-11-12    9  18    86  Pass
#> 4:  A 2018-11-12 13:22:00 2018-11-12   13  22    86  Pass
#> 5:  A 2018-11-12 13:36:00 2018-11-12   13  36    74  Pass
#> 6:  A 2018-11-14 06:32:00 2018-11-14    6  32    77  Pass
#> 7:  A 2018-11-14 07:12:00 2018-11-14    7  12    79  Pass

^{由 reprex package 创建于 2019-05-23 (v0.3.0)}

关于r - 在 df2 的日期时间中使用 df1 的 "hour"和 "min"上的条件合并 2 个数据帧，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56281178/

25

4

0

文章推荐： r - ggplot2 中 geom_line 层的正确参数

文章推荐： mobile - 创建将 vCard 直接添加到地址簿的链接

文章推荐： django - 关于 django-tables2 的链接列

文章推荐： c - 数组到指针的转换是否消除了间接运算符的评估？

python - df[x]、df[[x]]、df ['x' ]、df[['x' ]] 和 df.x 之间的区别
努力理解标题中 5 个示例之间的区别。系列与数据框有一些用例吗？什么时候应该使用一个而不是另一个？哪些是等价的？最佳答案 df[x] — 使用变量 x 索引列。返回 pd.Series df[[x]
python - 一步显示 df.info()、df.head()、df.shape、df.dtypes
在使用Jupyter Notebook时，我必须为问题标题中提到的df.info()、df.head()等单独留出空格. 有没有办法像第二张图片那样把所有这些都放在一个 block 中，并显示所有信息
python - 实现 `df[m] = df[x] + df[y] + df[z]` 的更好方法
我想求三列之和，我采取的方法如下: In [14]: a_pd = pd.DataFrame({'a': np.arange(3), 'b': [5, 7,
用快捷方式替换 df <- df %>% ...
我想我们大多数人已经使用过这样的东西(至少如果你正在使用 tidyverse): library(tidyverse) example % select(- mpg) 我的问题: 我知道这部分有一
python - 将 DF 拆分为多个 DF 并对每个 DF 执行所有操作的函数
我有一个 DF，里面有大约 20,000 行。我构建了一个 Python 脚本来对这些数据(包括数据透视表)运行大量清理和数学运算。我想将此 DF 拆分为 3 个独立的 DF，然后根据列值将这 3
python - 避免在执行 df ['column' ] = df ['column' ] 时写两次 df ['column' ]
我什至不知道如何表达这一点，但在 Python 中有没有一种方法可以引用等号之前的文本，而无需实际再次编写？ ** 编辑 - 我在 Jupyter 中使用 python3 我似乎用了半辈子的时间来写作
python - 替换 DF 中的单元格，其中 DF 的单元格是其他 DF 中所需行的索引
在 df1 中，每个单元格值都是我想要从 df2 中获取的行的索引。我想获取 df2 trial_ms 列中行的信息，然后根据获取的 df2 列重命名 df1 中的列。可重现的 DF: # df1
python - 从单个 df 派生多个 df，使得每个 df 没有 NaN 值
我想转换此表 0 thg John 3.0 1 thg James 4.0 2 mol NaN 5.0 3 mol NaN NaN 4
r - 我可以缩写 df[ !is.na(df$val) & df$val > 15] 吗？
我有一个数据框，我想从中提取 val 中的值大于 15 以及 val 不是 NA: df[ !is.na(df$val) & df$val > 15, ] 由于我假设在 R 中经常需要这样的比较，所
python - 如何用 df.loc 或 df.iloc 替换 df.ix？
鉴于 coming deprecation of df.ix[...] 如何替换这段代码中的 .ix？ df_1 = df.ix[:, :datetime.time(16, 50)] d
python-3.x - df.where( ) 和 df [ (df [ ] == ) ] 在 Pandas 中的区别，python
任何我可以帮助我说出 Pandas 中这两个语句之间的区别-python df.where(df['colname'] == value) 和 df[(df['colname'] == value)]
python - 在一个 df 上创建具有条件的 lambda 函数以在另一个 df 的 df.apply 中使用
考虑 df Index A B C 0 20161001 0 24.5 1 20161001 3 26.5 2
python - Pandas.groupby 中的 df.min、df.max 和 df.mean 有没有办法一次输出在某一列？
所以我需要按“fh_status”列对行进行分组，然后对每个组执行“gini”的最小值、平均值和最大值(将有三个)。我想出了这段代码: m = (df2.groupby(['fh_status']).
python - 在同一 df 中的 df col 行中仅选择一个值，以获取不同 val 的计算结果，并且一次仅对一个股票代码进行计算 df
我尝试计算不同公司/股票的一些 KPI。我的股票信息位于 df 中，具有以下结构 Ticker Open High Low Ad
r - 如何从另一个 df 的值子集创建一个新的 df？
我有一个看起来像这样的 df: gene ID Probe ID Chromosome Start Stop 1: H3F3A 539154271
python - 如何最好地使用来自另一个用于检索多个值的 df 的索引值创建新的 df？
nn_idx_df 包含与 xyz_df 的索引匹配的索引值。如何从 xyz_df 中的 H 列获取值并在 nn_idx_df 中创建新列以匹配 output_df 中所示的结果。我可以解决这个问题，
python - 如何根据条件从 DF 创建 DF
我目前的 DF 看起来像这样 Combinations Count 1 ('IDLY', 'VADA') 3734 6 ('DOSA', 'IDLY')
python - 用第二个 DF 填充 DF
我看到了几个与此相关的问题，但我发现这些技巧都不起作用。我正在尝试根据第二个数据帧的值填充数据帧的所有 NaN 值。第一个 df 很大，第二个 df 将充当某种键。 DF1 Par
python - 基于一个键将数据从 df 复制到多列中的另一个 df
我有两个数据帧，df1 和 df2。每个数据帧的唯一标识符是“ID”和“Prop_Number”。我需要将 df1 中的 Num1、2 和 3 列复制到 df2、1_Num 中的相应列...但我不确定
python - df.to_dict() 只得到一行原始数据帧(df)
我有以下数据框: 注意:日期是索引 city morning afternoon evening midnight date 2014-05-01 Y

首页

博学

6Ren·AI

商城

r - 在 df2 的日期时间中使用 df1 的 "hour"和 "min"上的条件合并 2 个数据帧