r - 将部分字符串拆分为一个列表列，然后创建一个向量列-6ren

r - 将部分字符串拆分为一个列表列，然后创建一个向量列

转载作者：行者123 更新时间：2023-12-04 04:39:53

24

4

我正在尝试在满足特定条件的每一行上运行一个函数，该函数返回一个数据框 - 然后的想法是获取数据框列表并将它们组合在一起以获得一个完全独立的 data.table。 (我从每个论坛帖子中提取了几个 URL 链接，并用它们来自的论坛帖子标记它们)。

我试着用 data.table 做这个

getUrls <- function(text, id) {
  matches <- str_match_all(text, url_pattern)
  a <- data.frame(urls=unlist(matches))
  a$id <- id
  a
}

a <- db[has_url == TRUE, getUrls(text)]

并得到消息

Error in `$<-.data.frame`(`*tmp*`, "id", value = c(1L, 6L, 1L, 2L, 4L,  : 
  replacement has 11007 rows, data has 29787

因为有些行有几个 URL... 但是，我不在乎这些行长度不匹配，我仍然想要这些行 :) 我以为 J 会让我在行的上下文中执行任意 R 代码作为变量姓名等

最佳答案

我们可以重写它，使其更加紧凑，避开函数。我们将分两步完成，首先我们将创建一个包含列表的新列(data.table 列几乎可以包含任何内容，甚至是嵌入的 data.tables)，然后我们将这些内容提取到一个新数据中。表。

url_pattern <- "http[^([:blank:]|\\\"|<|&|#\n\r)]+"

db[(has_url), urls := str_match_all(text, url_pattern)]
urls <- db[(has_url), list(url=unlist(urls)), by=id]

请注意，我们使用 (has_url) 而不是 has_url == T，这使用了更快的二进制索引(尽管在这种情况下，大部分时间都被 str_match_all 占用，因此不会产生太大差异)。但是请确保使用 () ，否则它将不起作用。

第二行创建 db$urls，它是一个 url 列表。第三行生成一个新的 data.table，其中每个 URL 都有一个条目，ID 字段将它链接回它来自的论坛帖子。

db 有 146k 行，db[(has_url),] 有 11k 行，urls 有 30k 行(一些帖子有几个 url)。

来自 head(urls) 的示例输出:

id  url
14  http://reganmian.net/blog
44  http://vg.no
59  http://koran.co.id

更新，简单的可重现示例

我们先生成一些数据

texts = c("Stian fruit:apple, fruit:banana and fruit:pear",
          "Peter fruit:apple",
          "fruit:banana is delicious",
          "I don't agree")
DT <- data.table(text = texts, id=1:length(texts))

DT
                                             text id
1: Stian fruit:apple, fruit:banana and fruit:pear  1
2:                              Peter fruit:apple  2
3:                      fruit:banana is delicious  3
4:                                  I don't agree  4

我们想从文本列中获取所有“水果”(每行可能有一个、几个或没有水果)。我们首先使用 str_match_all 将单个水果的列表放入一个新列中。

pattern <- "fruit:\\S*"

DT[, fruit_list := str_match_all(text, pattern)]

现在 Orchard 看起来像这样:

> DT[1]$fruit_list
[[1]]
     [,1]          
[1,] "fruit:apple,"
[2,] "fruit:banana"
[3,] "fruit:pear"

现在我们要将水果提取到一个新表中，每个水果一行，保持链接回 ID

fruits <- DT[, list(fruit=unlist(fruit_list)), by=id]

结果

> fruits
   id        fruit
1:  1 fruit:apple,
2:  1 fruit:banana
3:  1   fruit:pear
4:  2  fruit:apple
5:  3 fruit:banana

(感谢 Matthew Dowle 和 Ricardo Saporta 在 data.table-help 邮件列表中)

关于r - 将部分字符串拆分为一个列表列，然后创建一个向量列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19058352/

24

4

0

文章推荐： date - 将日期变量，格式为 "JA11"转换为 Stata 中的日期

文章推荐： rate-limiting - Lyft是否将请求限制为整个应用程序的API？

文章推荐： angularjs - NG-Grid 过滤器无法正常工作

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

r - 将部分字符串拆分为一个列表列，然后创建一个向量列