gpt4 book ai didi

regex - R : how to differentiate between inner and innermost brackets using regex

转载 作者:行者123 更新时间:2023-12-02 22:38:28 26 4
gpt4 key购买 nike

我需要从字符串 ((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS )))) 是这样的:

"JJ", "RBJJ", "DTJJNNPNNPS", "JJCCRBJJ", "INDTJJNNPNNPS""VBDJJCCRBJJINDTJJNNPNNPS"

即要找到最里面括号之间的文本,删除紧邻的括号,以便可以组合和提取文本。但这包括不同的层次。括号的揭开不能一次全部完成,因为括号的 no, of brackets 失去了平衡:

str1<-c()
str2<-c()
library(gsubfn)
strr<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))")
repeat {
str1<-unlist(strapply(strr, "((\\(([A-Z])+\\))+)"))
str2<-append(str1, str2)
strr<-gsub("(\\(\\w+\\))", "~\\1~", strr)
strr<-gsub("~\\(|\\)~", "", strr)
if (strr == "") {break}
}

strr
[1] "(VBD(JJCCRBJJINDTJJNNPNNPS"

左边的括号阻止了文本的组合,这使得它逃避了正则表达式。我认为解决这个问题的方法是,区分最里面的括号(JJ、RB、JJ、DT、JJ、NNP、NNPS、(新字符串上的 2、4、5、7、8、9、10))和内部括号括号。这样当最里面的括号全部揭开,将文本合并提取后,我们就得到了整个字符串。有没有正则表达式可以做到这一点?或者还有其他办法吗?请帮忙。

最佳答案

这不使用正则表达式。事实上,我不确定 regexp 是否足够强大来解决问题并且是否需要解析器。我没有在 R 中创建/定义解析器,而是利用现有的 R 代码解析器。这样做会使用一些相当有潜在危险的技巧。

基本思想是将字符串转换为可解析代码,使用列表生成树结构。然后对这个结构进行有效的反向剪枝(只保留叶节点向内),创建每一层的各种字符串。

一些辅助包

library("plotrix")
library("plyr")

你给的原始字符串

strr<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))")

将此字符串转换为可解析代码,引用括号内的内容,然后使每组括号调用 list。必须在列表项之间插入逗号,但最里面的部分总是长度为 1 的列表,所以这不是问题。然后解析代码。

tmp <- gsub("\\(([^\\(\\)]*)\\)",  '("\\1")', strr)
tmp <- gsub("\\(", "list(", tmp)
tmp <- gsub("\\)list", "),list", tmp)
tmp <- eval(parse(text=tmp))

此时,tmp 看起来像

> str(tmp)
List of 3
$ :List of 1
..$ : chr "VBD"
$ :List of 3
..$ :List of 1
.. ..$ :List of 1
.. .. ..$ : chr "JJ"
..$ :List of 1
.. ..$ : chr "CC"
..$ :List of 2
.. ..$ :List of 1
.. .. ..$ : chr "RB"
.. ..$ :List of 1
.. .. ..$ : chr "JJ"
$ :List of 2
..$ :List of 1
.. ..$ : chr "IN"
..$ :List of 4
.. ..$ :List of 1
.. .. ..$ : chr "DT"
.. ..$ :List of 1
.. .. ..$ : chr "JJ"
.. ..$ :List of 1
.. .. ..$ : chr "NNP"
.. ..$ :List of 1
.. .. ..$ : chr "NNPS"

括号的嵌套现在是列表的嵌套。还需要一些辅助函数。第一个折叠特定深度以下的所有内容并丢弃该深度以上的任何节点。第二个只是一个包装器,用于粘贴以共同处理列表中的一个元素。

atdepth <- function(l, d) {
if (d > 0 & !is.list(l)) {
return(NULL)
}
if (d == 0) {
return(unlist(l))
}
if (is.list(l)) {
llply(l, atdepth, d-1)
}
}

pastelist <- function(l) {paste(unlist(l), collapse="", sep="")}

创建一个列表,其中每个元素都是折叠到特定深度的树结构。

down <- llply(1:listDepth(tmp), atdepth, l=tmp)

在此列表上向后迭代,将叶集粘贴在一起。向后“向上”工作(折叠的)树。这样做会产生一些空白字符串(上面有一片叶子的地方),所以这些被修剪掉了。

out <- if (length(down) > 2) {
c(unlist(llply(length(down):3, function(i) {
unlist(do.call(llply, c(list(down[[i]]), replicate(i-3, llply), pastelist)))
})), unlist(pastelist(down[[2]])))
} else {
unlist(pastelist(down[[2]]))
}
out <- out[out != ""]

结果是我认为你要求的:

> out
[1] "JJ" "RBJJ"
[3] "DTJJNNPNNPS" "JJCCRBJJ"
[5] "INDTJJNNPNNPS" "VBDJJCCRBJJINDTJJNNPNNPS"
> dput(out)
c("JJ", "RBJJ", "DTJJNNPNNPS", "JJCCRBJJ", "INDTJJNNPNNPS", "VBDJJCCRBJJINDTJJNNPNNPS"
)

编辑:

回应带有后续问题的评论:如何调整它以处理一组这些字符串。

解决针对不同输入执行多次操作的一般方法是创建一个函数,该函数将单个项目作为输入并返回关联的单个输出。然后使用 apply 函数族之一循环该函数。

将之前的所有代码整合到一个函数中:

parsestrr <- function(strr) {
atdepth <- function(l, d) {
if (d > 0 & !is.list(l)) {
return(NULL)
}
if (d == 0) {
return(unlist(l))
}
if (is.list(l)) {
llply(l, atdepth, d-1)
}
}

pastelist <- function(l) {paste(unlist(l), collapse="", sep="")}

tmp <- gsub("\\(([^\\(\\)]*)\\)", '("\\1")', strr)
tmp <- gsub("\\(", "list(", tmp)
tmp <- gsub("\\)list", "),list", tmp)
tmp <- eval(parse(text=tmp))
down <- llply(1:listDepth(tmp), atdepth, l=tmp)
out <- if (length(down) > 2) {
c(unlist(llply(length(down):3, function(i) {
unlist(do.call(llply, c(list(down[[i]]), replicate(i-3, llply), pastelist)))
})), unlist(pastelist(down[[2]])))
} else {
unlist(pastelist(down[[2]]))
}
out[out != ""]
}

现在给定一个要处理的字符串向量,比如说:

strrs<-c("((VBD)(((JJ))(CC)((RB)(JJ)))((IN)((DT)(JJ)(NNP)(NNPS))))",
"((VBD)(((JJ))(CC)((RB)(XX)(JJ)))((IN)(BB)((DT)(JJ)(NNP)(NNPS))))",
"((VBD)(((JJ)(QQ))(CC)((RB)(JJ)))((IN)((TQR)(JJ)(NNPS))))")

你可以处理所有这些

llply(strr, parsestrr)

返回

[[1]]
[1] "JJ" "RBJJ"
[3] "DTJJNNPNNPS" "JJCCRBJJ"
[5] "INDTJJNNPNNPS" "VBDJJCCRBJJINDTJJNNPNNPS"

[[2]]
[1] "JJ" "RBXXJJ"
[3] "DTJJNNPNNPS" "JJCCRBXXJJ"
[5] "INBBDTJJNNPNNPS" "VBDJJCCRBXXJJINBBDTJJNNPNNPS"

[[3]]
[1] "JJQQ" "RBJJ"
[3] "TQRJJNNPS" "JJQQCCRBJJ"
[5] "INTQRJJNNPS" "VBDJJQQCCRBJJINTQRJJNNPS"

关于regex - R : how to differentiate between inner and innermost brackets using regex,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11089919/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com