r - 为每一行查找最接近的匹配项并根据条件求和-6ren

r - 为每一行查找最接近的匹配项并根据条件求和

转载作者：行者123 更新时间：2023-12-04 12:04:22

27

4

考虑以下事件数据表:

library(data.table)
breaks <- data.table(id = 1:8,
                     Channel = c("NP1", "NP1", "NP2", "NP2", "NP3", "NP3", "AT4", "AT4"),
                     Time = c(1000, 1100, 975, 1075, 1010, 1080, 1000, 1050),
                     Day = c(1, 1, 1, 1, 1, 1, 1, 1),
                     ZA = c(15, 12, 4, 2, 1, 2, 23, 18),
                     stringsAsFactors = F)

breaks
   id Channel Time Day ZA
1:  1     NP1 1000   1 15
2:  2     NP1 1100   1 12
3:  3     NP2  975   1  4
4:  4     NP2 1075   1  2
5:  5     NP3 1010   1  1
6:  6     NP3 1080   1  2
7:  7     AT4 1000   1 23
8:  8     AT4 1050   1 18

对于休息中的每个独特事件，我想使用 Time 在所有其他 channel 中找到最近的事件。变量 where Day == Day然后将这些事件的 ZA 值相加。

这是我想要达到的结果:

   id Channel Time Day ZA Sum
1:  1     NP1 1000   1 15  28
2:  2     NP1 1100   1 12  22
3:  3     NP2  975   1  4  39
4:  4     NP2 1075   1  2  32
5:  5     NP3 1010   1  1  42
6:  6     NP3 1080   1  2  32
7:  7     AT4 1000   1 23  20
8:  8     AT4 1050   1 18  19

所以第一行的 channel 是 NP1。所有其他 channel 中的关闭事件到 Time = 1000是第 3、5 和 7 行。 4+1+23 = 28
我使用带有以下代码的 data.table 使其工作:

breaks[breaks[, c("Day", "Time", "Channel", "ZA")], on = "Day", allow.cartesian = TRUE][
  Channel != i.Channel][
    order(id)][
      , delta := abs(Time - i.Time)][
        , .SD[delta == min(delta)], by = .(Channel, Time, Day, i.Channel)][
          , unique(.SD, by = c("id", "i.Channel"))][
            , .(Sum = sum(i.ZA)), by = .(id, Channel, Time, Day, ZA)]

但是，这会在第一步中创建一个包含 64 行的数据集，我想使用超过一百万行的数据集来执行此操作。

谁能帮我找到一种更有效的方法来做到这一点？

编辑:

我在 39 个不同 channel 的 140 万行的完整数据集上尝试了 G. Grothendieck (sqldf)、eddi (data.table) 和 MarkusN (dplyr) 的解决方案。数据集在内存中。

sqldf:      54 minutes
data.table: 11 hours
dplyr:      29 hours

最佳答案

在内部选择中，将每一行在同一天和不同 channel 的中断中自动连接到那些行，然后在所有连接到特定原始行的行中只保留具有最小绝对时间差的连接行。在外部选择和来自 id 内的另一个 Channel 的 ZA 给出结果。

请注意，我们在这里假设默认的 SQLite 后端为 sqldf，并且使用了特定于该数据库的功能，即 if min在选择中使用，则该选择中指定的其他值也将从最小化行填充。

默认情况下，它将使用内存数据库，如果它适合，则最好，但如果您指定 dbname = tempfile()作为 sqldf 的参数它将使用文件作为内存不足的数据库。也可以添加一个或多个索引，这可能会或可能不会加快速度。有关更多示例，请参阅 sqldf github 主页。

library(sqldf)

sqldf("select id, Channel, Time, Day, ZA, sum(bZA) Sum
 from (
   select a.*, b.ZA bZA, min(abs(a.Time - b.Time))
   from breaks a join breaks b on a.Day = b.Day and a.Channel != b.Channel
   group by a.id, b.Channel)
 group by id")

给予:

  id Channel Time Day ZA Sum
1  1     NP1 1000   1 15  28
2  2     NP1 1100   1 12  22
3  3     NP2  975   1  4  39
4  4     NP2 1075   1  2  32
5  5     NP3 1010   1  1  42
6  6     NP3 1080   1  2  32
7  7     AT4 1000   1 23  20
8  8     AT4 1050   1 18  19

这比关于这种规模问题的问题中的 data.table 代码略快，但对于更大的问题，必须重新进行比较。

此外，由于不必实现中间结果(取决于查询优化器)和处理内存不足的可能性(如果需要)，它可能能够处理更大的大小。

library(data.table)
library(dplyr)
library(sqldf)
library(rbenchmark)

benchmark(sqldf = 
sqldf("select id, Channel, Time, Day, ZA, sum(bZA) Sum
 from (
   select a.*, b.ZA bZA, min(abs(a.Time - b.Time))
   from breaks a join breaks b on a.Day = b.Day and a.Channel != b.Channel
   group by a.id, b.Channel)
 group by id"),

data.table = breaks[breaks[, c("Day", "Time", "Channel", "ZA")], on = "Day",
     allow.cartesian = TRUE][
  Channel != i.Channel][
    order(id)][
      , delta := abs(Time - i.Time)][
        , .SD[delta == min(delta)], by = .(Channel, Time, Day, i.Channel)][
          , unique(.SD, by = c("id", "i.Channel"))][
            , .(Sum = sum(i.ZA)), by = .(id, Channel, Time, Day, ZA)],

dplyr = { breaks %>% 
  inner_join(breaks, by=c("Day"), suffix=c("",".y")) %>%
  filter(Channel != Channel.y) %>%
  group_by(id, Channel, Time, Day, ZA, Channel.y) %>%
  arrange(abs(Time - Time.y)) %>%
  filter(row_number()==1) %>%
  group_by(id, Channel, Time, Day, ZA) %>%
  summarise(Sum=sum(ZA.y)) %>%                           
  ungroup() %>% 
  select(id:Sum) },

order = "elapsed")[1:4]

给予:

        test replications elapsed relative
1      sqldf          100    3.38    1.000
2 data.table          100    4.05    1.198
3      dplyr          100    9.23    2.731

关于r - 为每一行查找最接近的匹配项并根据条件求和，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46316429/

27

4

0

文章推荐： r - dplyr 追加组 ID 序列？

文章推荐： java - 如何从 ArrayList 中同时删除多个项目

文章推荐： r - 比较 boolean 向量

文章推荐： apache-nifi - 如何保存我在 nifi 上所做的事情。？

Python 一行
我想要以下代码的 Python 单行解决方案，但是怎么做呢？ total = 0 for ob in self.oblist: total += sum(v.amount for v in o
一行 Python 代码轻松构建树状热力图
今天和大家一起学习一种可视化技术：构建树状热力图treemap。树形图易于可视化，且易于被人理解。树状图通过展示不同大小的矩形，以传达不同大小的数据量，一般认为，较大的矩形意味着占总体的一大部分，而较
if-statement - 一行 if 语句
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Perl 一行 if 语句
我有一个声明 $set eq "Y" ? $set = "N" : $set = "Y"; 但不管它总是设置为 "N" # Toggle setting if ($set eq "Y") { $
PHP代码显示不正确[一行] EOL
当我尝试在我的服务器上上传一个 php 文件时，我收到一条消息:"Parse error: ..." 我知道这是什么意思，但问题是别的。如果我在本地服务器上编辑文件(我的计算机上安装了 XAMPP)
python - 一行 for 循环用于具有变量增量和二维列表搜索的二维列表
我是 python oneliner 循环的新手。我希望用户将数据输入到二维列表中，同时提醒他他们将输入的数据索引。我的代码是: flag=0 x=[[int(input("enter the "+
变量后面可以输出字符串吗？ (一行 printf)
尝试在变量之前和之后打印字符串。C 是否有能力使用一条语句来显示此输出？这有效: float value = 5; printf("\nThe value of %f", value); print
mysql - 一行/水平显示MySQL查询的输出
我正在验证我创建的 MySQL 数据库的结果，为此，我需要一些屏幕截图。例如，以下查询: select distinct run_ID from ngsRunStats_FK.failedRuns
一行 JavaScript 测试和赋值
有人可以解释一下这个 JS LINE 吗？数据是一个对象。 var list = data == null ? [] : (data.wine instanceof Array ? data.wine
一行 HTML 下拉列表
如何在一行中添加三个下拉菜单。我想把我的日、月和年放在一行中，但不能这样做。任何帮助将不胜感激。我附上我的 jsfiddle . .... 最佳
html 100%-(一行)
我正在尝试使用 html 将 iframe 的高度设置为 100%(我已成功完成)，但我还在顶部添加了一行额外的文本，所以它太高了 ~16px(这需要一个滚动条)。有没有办法更改 iframe 以显示
java - 将字符串数组写入文件 - 一行？
这是一个示例，我从文件中读取行作为字符串，以使整个文件作为字符串数组: String[] ArrayOfStrings = (new Scanner( new File("log.txt") ).us
c - 一行#if语句
我有一个包含大量定义的配置文件，用于在编译期间包含模块。此外，这意味着我必须经常检查代码内部的定义。每张支票需要 3 行，是否可以在一行中执行此操作。 #if FUNC_ENABLED functio
css - 水平列表不内联/一行
我正在尝试制作一个水平列表，其中每个列表中的 s 的高度为 385px，宽度为 400px。我尝试使用 inline-block 使列表水平排列，但这似乎不起作用。也就是说，我的意思是列表仍然是垂
一行 CSS，无法比较免费和付费主题文件
这很烦人，我有一个带有 css 文件的 wordpress 主题，所有内容都在一长行中。我想知道为什么有人会那样做。现在我已经升级了，我需要将旧文件与新文件进行比较，以便我可以接受更改。 Meld、d
python - 一行 for 循环并修改对象
我有一个对象数组，其中每个对象都有一个 search_order 属性。我要检查数组并将所有对象的属性增加 1这是简单的方法: res = [] for r in array: r.searc
linux - 移动文件并重命名 - 一行
我在某些服务器上遇到许多具有相同内容和相同名称的文件。我需要隔离这些文件进行分析，所以我不能只删除重复项。操作系统为Linux(centos和ubuntu)。我枚举文件名和位置并将它们放入文本文件中
Javascript 拼图 - 一行
你能在不抛出错误的情况下解决这个问题吗？答案是单线。这是来自一个死的职位发布，在回复中要求回答。我认为这是剔除受访者的聪明方法，但我似乎无法在不出错的情况下回答它。显而易见的解决方案: f.moo(
Java 一行 if 语句
这个问题在这里已经有了答案: Is it ok if I omit curly braces in Java? [closed] (16 个答案) 关闭 9 年前。我在 java 中使用没有大括号
python - 一行，三个变量
我在这里试图用 python 制作一个简单的计算器，我想知道是否可以在命令运行时将前 3 行合并为一行。我的意思是；我不必按 Enter 键来键入下一个数字/运算符，而是按空格键(在输入部分)。 wh

首页

博学

6Ren·AI

商城

r - 为每一行查找最接近的匹配项并根据条件求和