regex - 非贪婪 gsub-6ren

regex - 非贪婪 gsub

转载作者：行者123 更新时间：2023-12-04 20:42:26

26

4

我有一个日志数据集:

V1  duration  id  startpoint
T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  7771    1   2012-05-07_12-29-51
T<=>195[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501[=]N<=>360安全卫士[=]C<=>360.cn 7771    1   2012-05-07_12-29-51
T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    7771    1   2012-05-07_12-29-51
T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804  7771    1   2012-05-07_12-29-51 211

我正在尝试从第一列(时间点、进程、pid、url 等)中提取信息。起初我试过:

df$timepoint <- gsub("T<=>(.*)[=].*", "\\1", df$V1)

它返回类似 161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V< ，然后我尝试:

df$timepoint <- gsub("T<=>([0-9]*).*", "\\1", df$V1)

它有效，但在处理诸如进程名称之类的文本时不起作用，所以我搜索了“正则表达式最小匹配”并找到了术语 non-greedy .我又试了一次:

df$timepoint <- gsub("T<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$process <- gsub(".*P<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$pid <- gsub(".*I<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$url <- gsub(".*U<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$addr <- gsub(".*A<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$tab <- gsub(".*B<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$ver <- gsub(".*V<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$window <- gsub(".*W<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$name <- gsub(".*N<=>(.*?)\\[=\\].*", "\\1", df$V1)
df$company <- gsub(".*C<=>(.*?)", "\\1", df$V1)

并非每一行都包含所有信息并且发生了问题。如果没有关于软件名称或公司名称的信息，R 只需将 V1 复制到新的 var 中。如果软件版本信息在 V1 的末尾，则正则表达式 ".*V<=>(.*?)\\[=\\].*"还将整个字符串复制到新的var:

V1  duration  id  startpoint  timepoint process pid url addr  tab ver window  name  company
T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  7771    1   2012-05-07_12-29-51 161 explorer.exe    1820    T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  20094   T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512  T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512
T<=>195[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501[=]N<=>360安全卫士[=]C<=>360.cn 7771    1   2012-05-07_12-29-51 195 360Safe.exe 1732    T<=>195[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501[=]N<=>360安全卫士[=]C<=>360.cn T<=>195[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501[=]N<=>360安全卫士[=]C<=>360.cn T<=>195[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501[=]N<=>360安全卫士[=]C<=>360.cn 7, 5, 0, 1501   1017e   360安全卫士 360.cn
T<=>203[=]P<=>360chrome.exe[=]I<=>436[=]U<=>NULL[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804[=]N<=>360极速浏览器[=]C<=>360.cn    7771    1   2012-05-07_12-29-51 203 360chrome.exe   436 NULL    2027a   20290   5.2.0.804   T<=>203[=]P<=>360chrome.exe[=]I<=>436[=]U<=>NULL[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804[=]N<=>360极速浏览器[=]C<=>360.cn    360极速浏览器    360.cn
T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    7771    1   2012-05-07_12-29-51 209 360Safe.exe 1732    T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    1017e   T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501    T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501
T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804  7771    1   2012-05-07_12-29-51 211 360chrome.exe   436 www.hao123.com  2027a   20290   T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804  T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804  T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804  T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804

我认为如果 R 找不到 'C<=>' (例如)，那么之后就没有 (.*?) 了。这将是一个空字符串，但输出占用了整个字符串。任何人都可以帮我解决它吗？谢谢!

更新

感谢 MrFlick 的评论，我刚刚得到了一个基于 this answer 的解决方案:

以提取软件名称信息的过程为例，

ind1 <- grep(".*N<=>(.*?)\\[=\\].*", df$V1, value= FALSE) # see if pattern exists with follow-up
ind2 <- grep(".*N<=>(.*?)", df$V1, value= FALSE) # see if pattern exists
df$name <- "" 
df$name[ind2] <- gsub(".*N<=>(.*?)", "\\1", df$V1) # replace the ones with pattern match
df$name[ind1] <- gsub(".*N<=>(.*?)\\[=\\].*", "\\1", df$V1) # replace the ones with pattern match and follow-up

但是这个片段看起来很糟糕，如果它是最终的解决方案，我必须通过其他信息(进程、pid、版本、公司等)来完成它......有人可以帮助优化它吗？谢谢!

最佳答案

这是另一种策略。我们可以使用gregexpr分离堆叠数据的每一个片段。这是向量中的数据

V1<-c("T<=>161[=]P<=>explorer.exe[=]I<=>1820[=]W<=>20094[=]V<=>6.00.2900.5512", 
"T<=>195[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501[=]N<=>360安全卫士[=]C<=>360.cn", 
"T<=>209[=]P<=>360Safe.exe[=]I<=>1732[=]W<=>1017e[=]V<=>7, 5, 0, 1501", 
"T<=>211[=]P<=>360chrome.exe[=]I<=>436[=]U<=>www.hao123.com[=]A<=>2027a[=]B<=>20290[=]V<=>5.2.0.804")

现在我们可以用

m <- gregexpr("(\\w)<=>(.*?)(?:\\[=\\]|$)", V1, perl=T)

找出匹配的匹配项可能会很麻烦，但我使用函数 regcapturedmatches轻松获取所有匹配的数据。我使用它就像你使用内置的 regmatches

data <- regcapturedmatches(V1,m)

那么如果你检查 data你可以看到所有的信息都在那里。现在的问题是我们只需要将它构建为列而不是像现在这样的行。为此，我使用 reshape2

library(reshape2)

#combine list into one data.frame
sdata<-do.call(rbind, lapply(1:length(data), 
    function(i) data.frame(data[[i]], S=i)))    

#turn rows into columns
dcast(sdata, S~X1, value.var="X2")

这又回来了

  S    I             P   T              V     W      C           N     A     B
1 1 1820  explorer.exe 161 6.00.2900.5512 20094   <NA>        <NA>  <NA>  <NA>
2 2 1732   360Safe.exe 195  7, 5, 0, 1501 1017e 360.cn 360安全卫士  <NA>  <NA>
3 3 1732   360Safe.exe 209  7, 5, 0, 1501 1017e   <NA>        <NA>  <NA>  <NA>
4 4  436 360chrome.exe 211      5.2.0.804  <NA>   <NA>        <NA> 2027a 20290
               U
1           <NA>
2           <NA>
3           <NA>
4 www.hao123.com

您可以重命名列等，但一次执行所有转换实际上并不是那么多代码。

关于regex - 非贪婪 gsub，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23915953/

26

4

0

文章推荐： java - ActiveJDBC 性能

Java正则表达式(贪婪/非贪婪)
因此，我尝试将以下两组格式分开: FIRST - GrouP second.group.txt 第一组可以包含任意字符第二组是点(.) 分隔的字符串。我使用以下正则表达式来
php - 正则表达式，贪婪 |
几个星期以来，我一直在使用 php 中的正则表达式。现在我的问题是:有什么办法可以让 RegEx 贪婪 | 吗？例如主题:012345abcdefghijklm pattern: /(abcde|a
小议正则表达式效率贪婪、非贪婪与回溯
先扫盲一下什么是正则表达式的贪婪，什么是非贪婪？或者说什么是匹配优先量词，什么是忽略优先量词？好吧，我也不知道概念是什么，来举个例子吧。某同学想过滤之间的内容，那是这么写正则以及程序的。复制
Python正则表达式教程之三：贪婪/非贪婪特性
之前已经简单介绍了Python正则表达式的基础与捕获，那么在这一篇文章里，我将总结一下正则表达式的贪婪/非贪婪特性。贪婪默认情况下，正则表达式将进行贪婪匹配。所谓“贪婪”，其实就
CS50 PSET 1 贪婪
我对编程真的很陌生，我刚刚开始在哈佛的 CS50 上尝试一些问题集。如果有人能向我指出为什么我的代码是错误的，我将不胜感激。编译并运行代码后，没有任何输出。另一方面，有人可以向我解释一下“roun
CS50 PS 1 贪婪
寻求一些关于为什么运行如此奇怪的建议。超过 .25 的所有内容都可以正常工作，但是低于 .25 的任何内容都可以正常工作，我会得到一些非常奇怪的结果。怎么了？ #include #include
cs50 pset1 贪婪。我不必使用％？
这是我的 pset1 贪婪代码。现在，据我所知，这一切都有效，并且经过测试并使用了 cs50 检查... 问题是在演练中暗示了我必须查找如何正确使用 round，我也许应该在某个地方使用模块化？我明白
c# - 正则表达式匹配(贪婪/不贪婪？)
我在“分离”这些数据时遇到了一些麻烦。虽然辅助函数等是一个选项，但我真的很想只使用正则表达式来解决这个问题(并在匹配后处理匹配组)。这是我拥有的(部分)数据: Belgium Belgium M_F
CS50 PSet 1 贪婪
我正在编写一个程序，它接受输入并打印出使用的最少数量的硬币。当我运行程序并输入内容时，它没有按预期工作并且不打印任何内容。我在这里做错了什么？ #include #include int main
java - 惰性(贪婪)使用正则表达式匹配多个组
我想抓取对之间任何值的内容标签。 This is one block of text This is another one 我想出的正则表达式是 /(.*)/m 虽然，它看起来很贪心，并
regex - 懒惰，贪婪，还是什么？寻找权威的正则表达式引用
这个问题在这里已经有了答案: Reference - What does this regex mean? (1 个回答) 关闭 1 年前。最近，在网络*的某个地方，我找到了正则表达式的引用，它描
CS50 PSET1 贪婪 - 分配错误并使用模 (C)
编译此代码时出现错误。 Z 是找零所需的最终硬币数量，目标是使用最少数量的硬币。我在顶部附近定义了int Z = 0。我尝试再次添加 int z 并将 print 语句中的类型更改为 f 但没有成功。
PHP 正则表达式效率贪婪、非贪婪与回溯分析(推荐)
先扫盲一下什么是正则表达式的贪婪，什么是非贪婪？或者说什么是匹配优先量词，什么是忽略优先量词？好吧，我也不知道概念是什么，来举个例子吧。某同学想过滤之间的内容，那是这么写正则以及程序的。
Java - farkle(贪婪)游戏(骰子和玩家数组，多个类)
我正在尝试为像 Farkle(贪婪)游戏这样的命令编写代码。这是计算机科学入门类(class)。简而言之，您掷出 6 个骰子，分数取决于您掷出的骰子。然后，您需要移除已使用的骰子 -> 显示该骰子的分
python - 最长公共(public)子序列，python，贪婪
我已经提交了两个序列的LCS问题的代码草案。我在尝试贪婪时犯了严重的错误，现在我已经实现了我相信这个问题的稳定贪婪算法。虽然我有两个问题，在线类(class)的这一部分，当我提交它时它说序列 [1,2
regex - 贪婪 vs. 不情愿 vs. 占有限定词
我找到了这个tutorial关于正则表达式，虽然我直观地理解“贪婪”、“不情愿”和“占有”限定符的作用，但我的理解似乎存在严重漏洞。具体来说，在以下示例中: Enter your regex: .*
c - 我的代码有什么问题(CS50 2012 Pset 1 贪婪)
我正在尝试制作一个程序，提供最少数量的硬币找零，但如果我给出的数字不是可分为四等分的数字，它就会惨败。例如，如果我输入 1.25，我会得到 5 个 25 美分，但如果我输入 1.26，我会得到 5 个
machine-learning - 最优 epsilon(ε-贪婪)值
ϵ-贪婪策略我知道 Q-learning 算法应该尝试在探索和利用之间取得平衡。由于我是该领域的初学者，因此我想实现一个简单版本的探索/利用行为。最佳 epsilon 值我的实现使用 ϵ 贪婪策略
machine-learning - epsilon 贪婪 q 学习中的 epsilon 和学习率衰减
据我所知，epsilon 标志着探索和利用之间的权衡。一开始，你希望 epsilon 较高，这样你才能取得大的进步并学到东西。当您了解 future 的奖励时，epsilon 应该衰减，以便您可以利用

首页

博学

6Ren·AI

商城

regex - 非贪婪 gsub