r - 如何将不同的 gsub 模式(变量函数)应用于 R 中的每一行 data.table-6ren

r - 如何将不同的 gsub 模式(变量函数)应用于 R 中的每一行 data.table

转载作者：行者123 更新时间：2023-12-04 11:01:35

24

4

我有一个 data.table DT，其中包含一个字符串列和一个数字列，指示应从字符串开头提取多少个单词。

    > require(data.table)
    > DT <- data.table(string_col = c("A BB CCC", "DD EEE FFFF GDG", "AB DFD EFGD ABC DBC", "ABC DEF") 
                     , first_n_words = c(2, 3, 3, 1))
    > DT
                string_col first_n_words
    1:            A BB CCC             2
    2:     DD EEE FFFF GDG             3
    3: AB DFD EFGD ABC DBC             3
    4:             ABC DEF             1

我想用 string_col 的前 n 个词添加一个新列，如下所示:

> output_DT
            string_col first_n_words output_string_col
1:            A BB CCC             2              A BB
2:     DD EEE FFFF GDG             3       DD EEE FFFF
3: AB DFD EFGD ABC DBC             3       AB DFD EFGD
4:             ABC DEF             1               ABC

这是可以使用的 gsub 语法:

> gsub(paste0("^((\\w+\\W+){", first_n_words - 1, "}\\w+).*$"),"\\1", string_col)

我基本上需要为每一行创建这个 gsub 函数，在将它应用于该行的 string_col 之前使用该行的 first_n_words。我只对 data.table 语法解决方案感兴趣，因为它是一个非常大的数据集。最需要 gsub 解决方案。

编辑:我已经尝试了以下但它不起作用

> DT[, output_string_col := gsub(paste0("^((\\w+\\W+){", first_n_words - 1, "}\\w+).*$"),"\\1", string_col)]
Warning message:
In gsub(paste0("^((\\w+\\W+){", first_n_words - 1, "}\\w+).*$"),  :
  argument 'pattern' has length > 1 and only the first element will be used
>## This is not the desired output    
> DT 
                string_col first_n_words output_string_col
    1:            A BB CCC             2              A BB
    2:     DD EEE FFFF GDG             3            DD EEE
    3: AB DFD EFGD ABC DBC             3            AB DFD
    4:             ABC DEF             1           ABC DEF

这不是想要的输出

最佳答案

继续使用 data.table 的答案是使用分组操作，因为您需要 gsub 中的值，而不是向量:

DT[,line := .I]
DT[, output_string_col := gsub(paste0("^((\\w+\\W+){", first_n_words - 1, "}\\w+).*$"),"\\1", string_col),by = line]

> DT
            string_col first_n_words line output_string_col
1:            A BB CCC             2    1              A BB
2:     DD EEE FFFF GDG             3    2       DD EEE FFFF
3: AB DFD EFGD ABC DBC             3    3       AB DFD EFGD
4:             ABC DEF             1    4               ABC

编辑

正如@Franck 所说，分组应该放在first_n_words上以提高效率

DT[, output_string_col := gsub(paste0("^((\\w+\\W+){", first_n_words[1] - 1, "}\\w+).*$"),"\\1", string_col),by = first_n_words]

这个修改版本的基准测试给出了更快的结果:

library(microbenchmark)

denis <- function(x){
  x[, output_string_col := gsub(paste0("^((\\w+\\W+){", first_n_words[1] - 1, "}\\w+).*$"),"\\1", string_col),by = first_n_words]
}



Tim <- function(x){
  x[, output_string_col := apply(x, 1, function(x) {
    gsub(paste0("^((\\w+\\W+){", as.numeric(x[2]) - 1, "}\\w+).*$"), "\\1", x[1])
  })]
}

miss <- function(x){
  x[, output_string_col := stringr::word(string_col, end = first_n_words)]
}

DT <- DT[sample(1:4, 1000, replace = TRUE),]

microbenchmark(
  Tim(DT),
  miss(DT),
  denis(DT)
)

Unit: milliseconds
      expr       min        lq      mean    median        uq
   Tim(DT) 56.851716 57.836126 60.435164 58.714486 60.753051
  miss(DT) 11.042056 11.516928 12.427029 11.871800 12.617031
 denis(DT)  1.993437  2.355283  2.555936  2.615181  2.680001
        max neval
 111.169277   100
  20.916932   100
   3.530668   100

关于r - 如何将不同的 gsub 模式(变量函数)应用于 R 中的每一行 data.table，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52363435/

24

4

0

文章推荐： python-3.x - 将 Pandas 数据帧转换为 utf8

文章推荐： r - 查找包含字符序列的字符串，而不管 r 中的顺序

文章推荐： r - 确定 tibble 是否分组

Python 一行
我想要以下代码的 Python 单行解决方案，但是怎么做呢？ total = 0 for ob in self.oblist: total += sum(v.amount for v in o
一行 Python 代码轻松构建树状热力图
今天和大家一起学习一种可视化技术：构建树状热力图treemap。树形图易于可视化，且易于被人理解。树状图通过展示不同大小的矩形，以传达不同大小的数据量，一般认为，较大的矩形意味着占总体的一大部分，而较
if-statement - 一行 if 语句
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Perl 一行 if 语句
我有一个声明 $set eq "Y" ? $set = "N" : $set = "Y"; 但不管它总是设置为 "N" # Toggle setting if ($set eq "Y") { $
PHP代码显示不正确[一行] EOL
当我尝试在我的服务器上上传一个 php 文件时，我收到一条消息:"Parse error: ..." 我知道这是什么意思，但问题是别的。如果我在本地服务器上编辑文件(我的计算机上安装了 XAMPP)
python - 一行 for 循环用于具有变量增量和二维列表搜索的二维列表
我是 python oneliner 循环的新手。我希望用户将数据输入到二维列表中，同时提醒他他们将输入的数据索引。我的代码是: flag=0 x=[[int(input("enter the "+
变量后面可以输出字符串吗？ (一行 printf)
尝试在变量之前和之后打印字符串。C 是否有能力使用一条语句来显示此输出？这有效: float value = 5; printf("\nThe value of %f", value); print
mysql - 一行/水平显示MySQL查询的输出
我正在验证我创建的 MySQL 数据库的结果，为此，我需要一些屏幕截图。例如，以下查询: select distinct run_ID from ngsRunStats_FK.failedRuns
一行 JavaScript 测试和赋值
有人可以解释一下这个 JS LINE 吗？数据是一个对象。 var list = data == null ? [] : (data.wine instanceof Array ? data.wine
一行 HTML 下拉列表
如何在一行中添加三个下拉菜单。我想把我的日、月和年放在一行中，但不能这样做。任何帮助将不胜感激。我附上我的 jsfiddle . .... 最佳
html 100%-(一行)
我正在尝试使用 html 将 iframe 的高度设置为 100%(我已成功完成)，但我还在顶部添加了一行额外的文本，所以它太高了 ~16px(这需要一个滚动条)。有没有办法更改 iframe 以显示
java - 将字符串数组写入文件 - 一行？
这是一个示例，我从文件中读取行作为字符串，以使整个文件作为字符串数组: String[] ArrayOfStrings = (new Scanner( new File("log.txt") ).us
c - 一行#if语句
我有一个包含大量定义的配置文件，用于在编译期间包含模块。此外，这意味着我必须经常检查代码内部的定义。每张支票需要 3 行，是否可以在一行中执行此操作。 #if FUNC_ENABLED functio
css - 水平列表不内联/一行
我正在尝试制作一个水平列表，其中每个列表中的 s 的高度为 385px，宽度为 400px。我尝试使用 inline-block 使列表水平排列，但这似乎不起作用。也就是说，我的意思是列表仍然是垂
一行 CSS，无法比较免费和付费主题文件
这很烦人，我有一个带有 css 文件的 wordpress 主题，所有内容都在一长行中。我想知道为什么有人会那样做。现在我已经升级了，我需要将旧文件与新文件进行比较，以便我可以接受更改。 Meld、d
python - 一行 for 循环并修改对象
我有一个对象数组，其中每个对象都有一个 search_order 属性。我要检查数组并将所有对象的属性增加 1这是简单的方法: res = [] for r in array: r.searc
linux - 移动文件并重命名 - 一行
我在某些服务器上遇到许多具有相同内容和相同名称的文件。我需要隔离这些文件进行分析，所以我不能只删除重复项。操作系统为Linux(centos和ubuntu)。我枚举文件名和位置并将它们放入文本文件中
Javascript 拼图 - 一行
你能在不抛出错误的情况下解决这个问题吗？答案是单线。这是来自一个死的职位发布，在回复中要求回答。我认为这是剔除受访者的聪明方法，但我似乎无法在不出错的情况下回答它。显而易见的解决方案: f.moo(
Java 一行 if 语句
这个问题在这里已经有了答案: Is it ok if I omit curly braces in Java? [closed] (16 个答案) 关闭 9 年前。我在 java 中使用没有大括号
python - 一行，三个变量
我在这里试图用 python 制作一个简单的计算器，我想知道是否可以在命令运行时将前 3 行合并为一行。我的意思是；我不必按 Enter 键来键入下一个数字/运算符，而是按空格键(在输入部分)。 wh

首页

博学

6Ren·AI

商城

r - 如何将不同的 gsub 模式(变量函数)应用于 R 中的每一行 data.table

编辑