gpt4 book ai didi

r - 仅保留标签的文本

转载 作者:行者123 更新时间:2023-12-01 21:24:33 26 4
gpt4 key购买 nike

在具有格式化标签的文本中,例如

data.frame(id = c(1, 2), text = c("something here <h1>my text</h1> also <h1>Keep it</h1>", "<h1>title</h1> another here"))

有人怎么能用逗号分隔选项只保留 <h1> </h1> 中存在的文本? :

data.frame(text = c("my text, Keep it", "title"), id = c(1, 2))

最佳答案

我们可以使用str_extract_all。使用正则表达式查找,获取标记后的字符,然后遍历 list 输出并粘贴提取的字符串

library(stringr)
data.frame(text = sapply(str_extract_all(df1$text, "(?<=<h1>)[^<]+"),
paste, collapse=", "), id = df1$id)
# text id
#1 my text, Keep it 1
#2 title 2

关于r - 仅保留标签的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63252712/

26 4 0