gpt4 book ai didi

正则表达式从R中的字符串中提取

转载 作者:行者123 更新时间:2023-12-04 11:15:28 26 4
gpt4 key购买 nike

我有一个字符串

string = <td class=\"title\"><a href=\"/title/tt0075669/\">Amar Akbar Anthony</a><div class=\"desc_preview\" title=\"10/10&#10;votes 2\"> </div>\n</td>

我正在使用代码

library(stringr)
str_extract(string,"[A-Z]\\w+")

为此我得到了结果

> str_extract(string,"[A-Z]\\w+")
[1] "Amar"

但是我想要“Amar Akbar Anthony”作为我的输出。我应该如何为此适本地更改我的正则表达式?

最佳答案

编辑:糟糕!我误解了你的问题。我通常从两个 HTML 标记之间提取内容的方法是在“>”上使用正向后视,然后读取所有内容直到下一个“<”。

string = "<td class=\"title\"><a href=\"/title/tt0075669/\">Amar Akbar Anthony</a><div class=\"desc_preview\" title=\"10/10&#10;votes 2\"> </div>\n</td>"

str_extract(string,"(?<=>)[^<]+")

这有点脆弱。更好的答案是您不使用正则表达式来解析 HTML。 (来自 XML libraryhtmlTreeParse() 是一种方法;httr package 也有一个函数。)

我原来的答案,将所有单词提取为一个列表:

str_extract() 切换到 str_extract_all()

str_extract(string,"[A-Z]\\w+")
[1] "Amar"

str_extract_all(string,"[A-Z]\\w+")
[[1]]
[1] "Amar" "Akbar" "Anthony"

关于正则表达式从R中的字符串中提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39697806/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com