gpt4 book ai didi

regex - 在 R 中使用正则表达式提取某些符号之间的文本

转载 作者:行者123 更新时间:2023-12-04 02:32:02 25 4
gpt4 key购买 nike

我有一系列的表达,例如:

"<i>the text I need to extract</i></b></a></div>"

我需要提取 <i> 之间的文本和 </i> “符号”。也就是说,结果应该是:
"the text I need to extract"

目前我在 R 中使用 gsub 手动删除所有不是文本的符号。但是,我想使用正则表达式来完成这项工作。有谁知道提取 <i>之间的正则表达式吗?和 </i> ?

谢谢。

最佳答案

如果只有一个 <i>...</i>如示例中所示,然后匹配所有内容直到 <i>以及来自 </i> 的所有内容forward 并将它们都替换为空字符串:

x <- "<i>the text I need to extract</i></b></a></div>"
gsub(".*<i>|</i>.*", "", x)

给予:
[1] "the text I need to extract"

如果同一字符串中可能出现多次,请尝试:
library(gsubfn)
strapplyc(x, "<i>(.*?)</i>", simplify = c)

在这个例子中给出相同的。

关于regex - 在 R 中使用正则表达式提取某些符号之间的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26809847/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com