gpt4 book ai didi

r - 使用 dplyr 过滤包含部分列字符串的行

转载 作者:行者123 更新时间:2023-12-04 21:05:46 27 4
gpt4 key购买 nike

假设我有一个像

term     cnt
apple 10
apples 5
a apple on 3
blue pears 3
pears 1

我如何过滤此列中的所有部分找到的字符串,例如结果得到
term     cnt
apple 10
pears 1

没有指明我要过滤哪些术语(苹果|梨),而是通过自引用方式(即它确实根据整列检查每个术语并删除部分匹配的术语)。 token 的数量没有限制,字符串的一致性也没有限制(即“mapples”会被“apple”匹配)。这将导致基于 dplyr 的反向广义版本
d[grep("^apple$|^pears$", d$term), ]

此外,使用这种分离来获得累计总和会很有趣,例如
term     cnt
apple 18
pears 4

我无法让它与 contains() 或 grep() 一起使用。

谢谢

最佳答案

希望得到完整的答案。不是很惯用(作为 Pythonista 的电话),但有人可以建议对此进行改进:

> ssss <- data.frame(c('apple','red apple','apples','pears','blue pears'),c(15,3,10,4,3))
>
> names(ssss) <- c('Fruit','Count')
>
> ssss
Fruit Count
1 apple 15
2 red apple 3
3 apples 10
4 pears 4
5 blue pears 3
>
> root_list <- as.vector(ssss$Fruit[unlist(lapply(ssss$Fruit,function(x){length(grep(x,ssss$Fruit))>1}))])
>
>
> ssss %>% filter(ssss$Fruit %in% root_list)
Fruit Count
1 apple 15
2 pears 4
>
> data <- data.frame(lapply(root_list, function(x){y <- stringr::str_extract(ssss$Fruit,x); ifelse(is.na(y),'',y)}))
>
> cols <- colnames(data)
>
> #data$x <- do.call(paste0, c(data[cols]))
> #for (co in cols) data[co] <- NULL
>
> ssss$Fruit <- do.call(paste0, c(data[cols]))
>
> ssss %>% group_by(Fruit) %>% summarise(val = sum(Count))
# A tibble: 2 x 2
Fruit val
<chr> <dbl>
1 apple 28
2 pears 7
>

关于r - 使用 dplyr 过滤包含部分列字符串的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46239272/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com