r - 扩展 gsub 和 grepl 以忽略给定分隔符之间的子字符串-6ren

r - 扩展 gsub 和 grepl 以忽略给定分隔符之间的子字符串

转载作者：行者123 更新时间：2023-12-04 10:57:49

我希望能够仅在给定的定界符集之外使用 grepl() 和 gsub()，例如我希望能够忽略之间的文本引号。

这是我想要的输出:

grepl2("banana", "'banana' banana \"banana\"", escaped =c('""', "''"))
#> [1] TRUE
grepl2("banana", "'banana' apple \"banana\"", escaped =c('""', "''"))
#> [1] FALSE
grepl2("banana", "{banana} banana {banana}", escaped = "{}")
#> [1] TRUE
grepl2("banana", "{banana} apple {banana}", escaped = "{}")
#> [1] FALSE

gsub2("banana", "potatoe", "'banana' banana \"banana\"")
#> [1] "'banana' potatoe \"banana\""
gsub2("banana", "potatoe", "'banana' apple \"banana\"")
#> [1] "'banana' apple \"banana\""
gsub2("banana", "potatoe", "{banana} banana {banana}", escaped = "{}")
#> [1] "{banana} potatoe {banana}"
gsub2("banana", "potatoe", "{banana} apple {banana}", escaped = "{}")
#> [1] "{banana} apple {banana}"

真实案例可能会以不同的数量和顺序引用子字符串。

我已经编写了以下适用于这些情况的函数，但它们很笨重并且 gsub2() 根本不健壮，因为它暂时用占位符替换了分隔的内容，这些占位符可能是受后续操作影响。

regex_escape <-
function(string,n = 1) {
  for(i in seq_len(n)){
    string <- gsub("([][{}().+*^$|\\?])", "\\\\\\1", string)
  }
  string
}

grepl2 <- 
  function(pattern, x, ignore.case = FALSE, perl = FALSE, fixed = FALSE, 
           useBytes = FALSE, escaped =c('""', "''")){
    escaped <- strsplit(escaped,"")
    # TODO check that "escaped" delimiters are balanced and don't cross each other
    for(i in 1:length(escaped)){
      close <- regex_escape(escaped[[i]][[2]])
      open <- regex_escape(escaped[[i]][[1]])
      pattern_i <- sprintf("%s.*?%s", open, close)
      x <- gsub(pattern_i,"",x)
    }
    grepl(pattern, x, ignore.case, perl, fixed, useBytes)
  }

gsub2 <- function(pattern, replacement, x, ignore.case = FALSE, perl = FALSE, 
                   fixed = FALSE, useBytes = FALSE, escaped =c('""', "''")){
  escaped <- strsplit(escaped,"")
  # TODO check that "escaped" delimiters are balanced and don't cross each other
  matches <- character()
  for(i in 1:length(escaped)){
    close <- regex_escape(escaped[[i]][[2]])
    open <- regex_escape(escaped[[i]][[1]])
    pattern_i <- sprintf("%s.*?%s", open, close)
    ind <- gregexpr(pattern_i,x)
    matches_i <- regmatches(x, ind)[[1]]
    regmatches(x, ind)[[1]] <- paste0("((",length(matches) + seq_along(matches_i),"))")
    matches <- c(matches, matches_i)
  }
  x <- gsub(pattern, replacement, x, ignore.case, perl, fixed, useBytes)
  for(i in seq_along(matches)){
    pattern <- sprintf("\\(\\(%s\\)\\)", i)
    x <- gsub(pattern, matches[[i]], x)
  }
  x
}

是否有使用正则表达式而不使用占位符的解决方案？请注意，我当前的函数支持多对定界符，但我会对仅支持一对定界符的解决方案感到满意，并且不会尝试匹配简单引号之间的子字符串。

强加不同的分隔符也是可以接受的，例如 { 和 } 而不是 2 " 或 2 ' 如果有帮助。

我也可以强加 perl = TRUE

最佳答案

您可以使用 start/end_escape 参数来提供匹配定界符的 LHS 和 RHS，例如 { 和 } 而无需在错误的地方(} 作为 LHS 分隔符)

perl = TRUE 允许环视断言。这些评估其中陈述的有效性，没有在模式中捕获它们。 This post很好地涵盖了它们。

你会在 perl = FALSE 中得到一个错误，因为 TRE ，R 的默认正则表达式引擎，不支持它们。

  gsub3 <- function(pattern, replacement, x, escape = NULL, start_escape = NULL, end_escape = NULL) {
      if (!is.null(escape) || !is.null(start_escape)) 
      left_escape <- paste0("(?<![", paste0(escape, paste0(start_escape, collapse = ""), collapse = ""), "])")
      if (!is.null(escape) || !is.null(end_escape))
      right_escape <- paste0("(?![", paste0(escape, paste0(end_escape, collapse = ""), collapse = ""), "])")
      patt <- paste0(left_escape, "(", pattern, ")", right_escape)
      gsub(patt, replacement, x, perl = TRUE)
    }
    gsub3("banana", "potatoe", "'banana' banana \"banana\"", escape = "'\"")
    #> [1] "'banana' potatoe \"banana\""
    gsub3("banana", "potatoe", "'banana' apple \"banana\"", escape = '"\'')
    #> [1] "'banana' apple \"banana\""
    gsub3("banana", "potatoe", "{banana} banana {banana}", escape = "{}")
    #> [1] "{banana} potatoe {banana}"
    gsub3("banana", "potatoe", "{banana} apple {banana}", escape = "{}")
    #> [1] "{banana} apple {banana}"

下面是 grepl3 - 注意这不需要 perl = TRUE 因为我们不关心模式捕获什么，只关心它匹配。

grepl3 <- function(pattern, x, escape = "'", start_escape = NULL, end_escape = NULL) {
  if (!is.null(escape) || !is.null(start_escape)) 
  start_escape <- paste0("[^", paste0(escape, paste0(start_escape, collapse = ""), collapse = ""), "]")
  if (!is.null(escape) || !is.null(end_escape))
  end_escape <- paste0("[^", paste0(escape, paste0(end_escape, collapse = ""), collapse = ""), "]")
  patt <- paste0(start_escape, pattern, end_escape)
  grepl(patt, x)
}

grepl3("banana", "'banana' banana \"banana\"", escape =c('"', "'"))
#> [1] TRUE
grepl3("banana", "'banana' apple \"banana\"", escape =c('""', "''"))
#> [1] FALSE
grepl3("banana", "{banana} banana {banana}", escape = "{}")
#> [1] TRUE
grepl3("banana", "{banana} apple {banana}", escape = "{}")
#> [1] FALSE

编辑:

这应该可以解决 gsub 而不会出现 Andrew 提到的问题，只要您可以使用一组成对的运算符。我认为您可以修改它以允许使用多个定界符。感谢这个有趣的问题，在 regmatches 中找到了一个新的 gem!

gsub4 <-
  function(pattern,
           replacement,
           x,
           left_escape = "{",
           right_escape = "}") {
    # `regmatches()` takes a character vector and
    # output of `gregexpr` and friends and returns
    # the matching (or unmatching, as here) substrings
    string_pieces <-
      regmatches(x,
                 gregexpr(
                   paste0(
                     "\\Q",  # Begin quote, regex will treat everything after as fixed.
                     left_escape,
                     "\\E(?>[^", # \\ ends quotes.
                     left_escape,
                     right_escape,
                     "]|(?R))*", # Recurses, allowing nested escape characters
                     "\\Q",
                     right_escape,
                     "\\E",
                     collapse = ""
                   ),
                   x,
                   perl = TRUE
                 ), invert =NA) # even indices match pattern (so are escaped),
                                # odd indices we want to perform replacement on.
for (k in seq_along(string_pieces)) {
    n_pieces <- length(string_pieces[[k]])
  # Due to the structure of regmatches(invert = NA), we know that it will always
  # return unmatched strings at odd values, padding with "" as needed.
  to_replace <- seq(from = 1, to = n_pieces, by = 2)
  string_pieces[[k]][to_replace] <- gsub(pattern, replacement, string_pieces[[k]][to_replace])
}
    sapply(string_pieces, paste0, collapse = "")
  }
gsub4('banana', 'apples', "{banana's} potatoes {banana} banana", left_escape = "{", right_escape = "}")
#> [1] "{banana's} potatoes {banana} apples"
gsub4('banana', 'apples', "{banana's} potatoes {banana} banana", left_escape = "{", right_escape = "}")
#> [1] "{banana's} potatoes {banana} apples"
gsub4('banana', 'apples',  "banana's potatoes", left_escape = "{", right_escape = "}")
#> [1] "apples's potatoes"
gsub4('banana', 'apples', "{banana's} potatoes", left_escape = "{", right_escape = "}")
#> [1] "{banana's} potatoes"

关于r - 扩展 gsub 和 grepl 以忽略给定分隔符之间的子字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58775471/

文章推荐： r - 使用来自其他列的某些行的值创建新列

必须加载 PHP 扩展 "curl"。必须加载 PHP 扩展 "soap"
我是 magento 的新手，目前我在 magento 安装期间遇到“必须加载 PHP 扩展 curl ”错误。你能帮帮我吗？最佳答案如果您的服务器上没有安装 curl，您可以键入以下命令之一来安
php - $ Composer 找不到 mongodb 扩展，需要 Mongodb 扩展
我在 macOS Mojave/macOS Big Sur/macOS Monterey/macOS Ventura 上使用最新的 php 版本 7.2 并收到类似错误 $composer requ
java - Integer 扩展 Number 但无法对
这个问题已经有答案了: Why generic type is not applicable for argument extends super class for both? (5 个回答) 已关
javascript - 在默认 NightWatch 浏览器实例中启用和修改 Chome 扩展(特别是 ModHeader 扩展)
我正在使用 NightWatch.js 并进行一些 UI 测试，我想用一些额外的 desiredCapabilities 启动默认浏览器实例(即启用扩展并应用一些特定值)。 p> 注意:我可以执行这些
java - 扩展 server_name(SNI 扩展)未随 JAVA 8 一起发送
有人知道为什么我在 java 8 中使用此代码时没有服务器扩展名称吗: try { URL url = new URL(urlString); URLC
dart - 扩展 dart 类类似于 js 原型(prototype)或 swift 扩展
扩展提供给我的类(class)。为现有的类提供新功能。或扩展现有的mixin s 或虚拟类，任何东西都可以工作。也许是这样的: class FlatButton {} // maybe no
python - 使用 c 扩展 python/django，使用 apache 扩展 mod_wsgi
我有一个关于使用 c 代码和 mod_wsgi 扩展 python 的问题。我在 apache 服务器中有一个 django 应用程序，它查询 postgresql 数据库以生成报告。在某些报告中，
google-chrome - testcafe 是否支持加载任何 crx 扩展，并使用 chrome 浏览器中的自定义 header 值设置 ModHeader 扩展
testcafe支持在Chrome浏览器中加载crx扩展吗？如果是这样，请告诉我需要尝试什么方法。我尝试了下面的代码，但没有成功 await t.eval(new Function(fs.read
java - 在 Java 中，类 B 扩展 A 和类 B 扩展 A 之间有什么区别
这个问题已经有答案了: What is a raw type and why shouldn't we use it? (16 个回答) 已关闭 3 年前。有什么区别: // 1 class A c
javascript - 单击 chrome 扩展 DOM(popup.html) 上的按钮时，扩展 DOM 关闭并且不会在 popup.js 中调用 onclick 函数
我正在编写一个 chrome 扩展来记录单击开始按钮后触发的请求。这是我的文件:1. list .json { "manifest_version": 2, "name": "recorde
大语言模型提示技巧（七）－扩展
扩展是将较短的文本，例如一组提示或主题列表，输入到大型语言模型中，让模型生成更长的文本。我们可以利用这个特性让大语言模型生成基于某个主题的电子邮件或小论文。通过这种方式使用大语言模型，可以为工作与生活
Vim # 扩展
我每天都在使用 vim 和 perforce 现在我的问题是，如果我想查看 perforce 文件修订版，则从命令模式下的 vim :!p4 打印文件#1 vim 试图让我获得缓冲区 #1。有没有办法
NUnit 扩展
大家好，我有一个关于 NUnit 扩展(2.5.10)的问题。我想做的是向数据库。为此，我使用 Event 创建了 NUnit 扩展听众。我遇到的问题是公共(public)无效 TestFin
扩展。通过单击不在窗口中关闭弹出窗口
我有弹出窗口，而不是模态窗口。如何通过单击页面的其他部分(不在窗口中)来关闭此窗口？最佳答案像这样的东西: function closeWin(e, t) { var el = win.
C# 扩展
我通常非常谨慎地使用扩展方法。当我确实觉得有必要编写一个扩展方法时，有时我想重载该方法。我的问题是，您对调用其他扩展方法的扩展方法有何看法？不好的做法？感觉不对，但我无法真正定义原因。例如，第二个
16、扩展 Ant
扩展 Ant Ant带有一组预定义的任务，但是你可以创建自己的任务，如下面的例子所示。定制Ant 任务应扩展 org.apache.tools.ant.Task 类，同时也应该拓展 execut
用于重定向文件的 Firefox 扩展
我想要一个重定向所有请求的扩展: http://website.com/foo.js 到: http://localhost/myfoo.js 我无法使用主机文件将主机从 website.com 编辑
c++ - 扩展 QChartView
对于为什么 QChartView 放在 QTabWidget 中时会扩展，我有点迷惑。这是 QChartView 未展开(因为它被隐藏)时应用程序的图片。应用程序的黑色部分是 QOpenGLWid
oracle - 如何避免 OR 扩展？
如果在连接条件中使用 OR 运算符，如何优化以下查询以避免 SQL 调优方面的 OR 扩展？ SELECT t1.A, t2.B, t1.C, t1.D, t2.E FROM t1 LEFT J
.net - 扩展/插件通信架构
一旦加载插件的问题得到解决(在 .NET 中通过 MEF 的情况下)，下一步要解决的是与它们的通信。简单的方法是实现一个接口(interface)，使用插件实现，但有时插件只需要扩展应用程序的工作方式

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 扩展 gsub 和 grepl 以忽略给定分隔符之间的子字符串