gpt4 book ai didi

r - 使用 R 的数据帧中字符串的频率及其 ID

转载 作者:行者123 更新时间:2023-12-05 09:35:39 24 4
gpt4 key购买 nike

目标是生成文本变量的频率并将相应的 ID 与其相关联。

假设 Sample 是一个数据框,如下所示:

Sample <- data.frame(ID = c('1', '2', '3', '4', '5', '6'), 
Var = c('How are you',
'Do not go',
'How are you',
'Please go',
'How are you',
'Do not go'))

以下命令生成 Var 列中字符串的频率,如下所示:

as.data.frame(table(unlist(strsplit(tolower(Sample$Var), ', '))))

enter image description here

有没有办法在表中一起生成关联的ID,比如?:

enter image description here

最佳答案

试试这个:

library(dplyr)
#Code
New <- Sample %>% group_by(Var) %>%
summarise(Freq=n(),IDS=toString(ID))

输出:

# A tibble: 3 x 3
Var Freq IDS
<chr> <int> <chr>
1 Do not go 2 2, 6
2 How are you 3 1, 3, 5
3 Please go 1 4

关于r - 使用 R 的数据帧中字符串的频率及其 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65703315/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com