r - gsub，括号内的内容偶尔由换行符而不是右括号-6ren

r - gsub，括号内的内容偶尔由换行符而不是右括号

转载作者：行者123 更新时间：2023-12-04 12:32:04

33

4

我正在尝试清理一些文本字符串，以便我可以干净地解析出一些脚本信息。对于这些表格，括号中的信息表示脚本的位置或阻塞注释。

我想获取所有括号内的信息，并删除括号及其所有包含的字符。工作中的关键在于，由于数据最初都是手动编写的，并非所有带括号的信息或注释实际上都有右括号。所以 - 我想确定:

[

除右括号外的任何字符，0 次或多次

可以是右括号，也可以是换行符\n

样本数据，一个很长的字符串(我自己的缩写)。通常每个字符串都是一整集的脚本:

"[Bridge]\r\r\n\r\r\n SPOCK: Check the circuit. \r\r\n [Pike's Quarters \r\r\n BOYCE: Boyce here.\r\r\n"

我尝试了 gsub 的几种排列，主要是沿着这些思路:

    df$script <- gsub("\\[[^\\]]*[\\]|\\n]", " ", testdf$script)

我认为应该捕获:

    \\[         an open bracket
    [^\\]]*     any character except for a closed bracket, 0 or more times
    [\\]|\\n]   either a closed bracket, or a new line metachar

但我每次都空着。我在那个 gsub 线上尝试了其他变体，因为我的 regex-fu 是让我退缩的原因。这些都已经尝试过，没有改变我的字符串:

    df$script <- gsub("\\[[^\\]]*[\\]\\n]", " ", testdf$script)
    df$script <- gsub("\\[[^\\]]*[\\]|\\n]", " ", testdf$script)
    df$script <- gsub("\\[[^\\]]*[\\](\\n)]", " ", testdf$script)
    df$script <- gsub("\\[[^\\]]*[\\]|(\\n)]", " ", testdf$script)

我知道正则表达式抓取的 HTML 可能会让我在这里臭脸；不幸的是，这是我处理这个字符串的唯一工具。我在使用其他一些语言正则表达式模拟器方面取得了不同程度的成功，但是关于 R gsub 的一些东西在我试图处理元字符的方式上并不适用。任何建议将不胜感激。

最佳答案

您可以使用以下 PCRE 正则表达式(将 perl=TRUE 参数传递给 gsub )

\[[^]\r\n]*(?:]|\R)

见 regex demo .

图案详情

\[ - 一个 [字符

[^]\r\n]* - 除了 ] 之外还有 0+ 个字符, CR 和 LF

(?:]|\R) - 要么是 ] ( ] ) 或 ( | ) 换行序列 ( \R )

R demo :

x <- "[Bridge]\r\r\n\r\r\n SPOCK: Check the circuit. \r\r\n [Pike's Quarters \r\r\n BOYCE: Boyce here.\r\r\n"
x <- gsub("\\[[^]\r\n]*(?:]|\\R)", " ", x, perl=TRUE)
x
## => [1] " \r\r\n\r\r\n SPOCK: Check the circuit. \r\r\n  \r\n BOYCE: Boyce here.\r\r\n"

关于r - gsub，括号内的内容偶尔由换行符而不是右括号，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48489825/

33

4

0

文章推荐： haskell - ghc-pkg 检查黑线鳕警告

文章推荐： c - 如何将包含通配符的路径转换为 C 程序中相应的文件条目？

文章推荐： Vim:在一个命令中跨缓冲区复制文本

文章推荐： haskell - Parallel Haskell - GHC GC'ing sparks

c - +<右> 与 <右>？
我想知道最终用户按下了什么，所以我使用了 getch() 。如果用户按右，我可以获得0xE0 0x4D。如果用户按下Ctrl+右，我可以获得0xE0 0x47。如果用户按下Shift+右，我可以
javascript - 如何启用谷歌地图 Controller (右，右..等箭头)
我已经构建了一个应用程序来搜索我的位置。这是代码 var map; var gdir; var geocoder = null; var addressMarker; function init
html - 3 个元素的对齐方式(左、右 1、右 2)
我想为我的元素设计布局 View 。布局 View 在左 Angular 和右 Angular (同一行)有一个图像，将有 2 行单词，一行在第 1 行，另一行在第 2 行。我该如何实现？ It
graphviz - Graphviz 中的左->右、下、右->左、下、左->右布局
我有一个很长的线性(分支不多)流程图，在 graphviz 中显示为要么太高而无法放在单个页面上，要么太宽(如果方向是从左到右) 是否有一种简单的方法可以让 graphviz 以从左到右，然后向下，然
responsive-design - 3 列(左、主、右)站点，但较小的设备首先是主(主、左、右)
我一直摸不着头脑，但运气不好。设计器有一个包含 3 栏的站点、两个侧边栏和一个主要内容区域。专为桌面设计，左栏、主要内容、右栏。但是，在较小的设备上，我们希望首先堆叠主要内容。所以通常情况下，你可
html - 使用 CSS 的上-下-左-右-上-左-右-上-下内容流
我想要从上到下和从左到右组织的 css block 。为了更好地解释这是一张图片，其中包含我到目前为止所获得的内容以及我希望使用 CSS 实现的内容: 代码如下: HTML: 1 2 3 4 5
haskell - 如果“任一个”可以是“左”或“右”，但不能同时是“左”或“右”，那么为什么在Curry-Howard对应中它对应于OR而不是XOR？
当我问this question时，答案之一(现已删除)建议Either类型对应Curry-Howard correspondence中的XOR而不是OR，因为它不能同时是Left和Right。真相
右 |多列的条件变异
如果一行中六个观察值中至少有三个是 != NA，我想计算该行的平均值。如果存在四个或更多 NA，则平均值应显示为 NA。给出平均值的例子，忽略了 NA: require(dplyr) a % mut
r - 如何创建每行库存的二进制矩阵？ (右)
我有一个由 9 列组成的数据框，其中包含一个因素 list 。每行可以填充所有 9 列(因为在该行中包含 9 个“事物”)，但大多数没有(大多数有 3-4 个)。列也不是特定的，就像第 1 列和第 3
r - 在循环中创建变量和数据集？ (右)
这是我第一次尝试使用 R 构建函数。基本上我的预期目标如下。使用 RoogleVision 包与 Google Cloud Vision API 通信函数遍历目录中的图片从每张图片的 Googl
右(或左)边修剪平均值
使用: mean (x, trim=0.05) 从分布的每一侧移除 2.5%，这对于对称的双尾数据来说很好。但是如果我有一个尾部或高度不对称的数据，我希望能够只删除分布的一侧。有没有这个功能，还是我自
r - 保留具有不同名称的重复列。右
我想保留重复的列，并删除唯一的列。这些列将具有相同的值，但名称不同。 x1 = rnorm(1:10) x2 = rnorm(1:10) x3 = x1 x4 = rnorm(1:10) x5 = x
wpf - WPF工具栏项目HorizontalAligment =“右”
是否可以使WPF工具栏中的元素的Right水平对齐方式正确？我尝试将内部元素添加到Grid中，并将ColumnDefinition分配给Left / Right。我
r - DT包中如何居中列？右
datatable(head(iris)) 如何将我的列居中，使其位于我的列名称的正下方？最佳答案您可以使用options 下的columnDefs 自变量。将 className 设置为 dt-
r - 使用粘贴来组合字母或循环。右
我是 R 的新手，但我正在尝试在 R 中制作滑动窗口。使用循环我可以像这样，但这变得非常低效。 results=c(1:7) letters=c("A","B","C","D","E","F","G
r - 在文本文件中的特定行之间粘贴文本？ (右)
假设我有这个 .txt 文件: here is line 1 here is line 2 here is line 3 here is line 4 我想将此字符串粘贴到第 3 行和第 4 行之间:
r - 在文本文件中的特定行之间粘贴文本？ (右)
假设我有这个 .txt 文件: here is line 1 here is line 2 here is line 3 here is line 4 我想将此字符串粘贴到第 3 行和第 4 行之间:
class - 环境中有什么类别的对象？ (右)
我想知道我的环境中有什么类型的对象。我可以像这样显示谁在那里: ls() 但是运行类似的东西 sapply(ls(), class) (显然)不会告诉我们我们拥有什么类型(类)的对象(函数、数字、因
r - 绘制带有悬挂叶子的水平树状图？ (右)
我想创建一个带有水平标签的树状图，但让叶子根据它们的高度悬挂，而不是仅仅下降到图的边缘。例子: par(mfrow = c(1,2)) hc <- hclust(dist(USArrests), "
html - 如何在CSS中实现最小左/右
我的 CSS 中有一个元素，如下所示 .xyz{ position:absolute; left:50%; } 现在正如预期的那样，当我减小浏览器窗口的宽度时，这个元素向左移动

首页

博学

6Ren·AI

商城

r - gsub，括号内的内容偶尔由换行符而不是右括号