gpt4 book ai didi

regex - 使用正则表达式 (?) 填充数据框列

转载 作者:行者123 更新时间:2023-12-01 07:18:00 25 4
gpt4 key购买 nike

好的,所以我有一个网络论坛评论的数据框。每行都有一个包含 ID 的单元格,该 ID 是指向该评论的父评论的链接的一部分。这些行包含评论的完整永久链接,其中 ID 是变化的部分。

我想添加一列,显示附加到该父评论的用户名。我假设我需要使用一些正则表达式函数,此时我觉得这很神秘。

在工作流方面,我需要找到其 URL 包含父评论 ID 的行,从该行获取用户名。这是一个玩具示例:

toy <- rbind(c("yes?", "john", "www.website.com/4908", "3214", NA), c("don't think so", "mary", "www.website.com/3958", "4908", NA))
toy <- as.data.frame(toy)
colnames(toy) <- c("comment", "user", "URL", "parent", "parent_user")

comment user URL parent parent_user
1 yes? john www.website.com/4908 3214 <NA>
2 don't think so mary www.website.com/3958 4908 <NA>

需要变成:
         comment user                  URL parent parent_user
1 yes? john www.website.com/4908 3214 <NA>
2 don't think so mary www.website.com/3958 4908 john

此列中的某些值将是 NA,因为它们是顶级注释。所以像,
dataframe$parent_user <- dataframe['the row where parent
ID i is found in the URL column', 'the user name column in that row']

谢谢!!

最佳答案

另一种选择,使用 basename来自基 R 的函数,它“删除直到并包括最后一个路径分隔符(如果有)的所有路径”

toy$user[match(toy$parent, basename(as.character(toy$URL)))]
#1] <NA> john
#Levels: john mary

关于regex - 使用正则表达式 (?) 填充数据框列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37625892/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com