gpt4 book ai didi

r - 使用 R 中的 str_count 函数计算多个模式

转载 作者:行者123 更新时间:2023-12-05 08:27:57 36 4
gpt4 key购买 nike

对 R 相当陌生,在使用 string_count 时遇到一些困难用于检测多个未知单词并包含在单独向量中的函数。

现在,我知道如何使用以下代码检测模式的单个实例:

str_count(mydf$string, "Apples")

我想要做的是从一个向量中检测多个单词(例如“Apples”、“Pears”、“Oranges”等),该向量本身是从另一个数据框创建的(例如通过使用 Uniques<-unique(mydf1$words) )。

这里的关键是 mydf1$words 中出现的单词完全取决于首先将哪些数据上传到 R,因为这会随着数据集的不同而变化。

答案可能很简单,但我似乎无法解决!

最佳答案

你是指stringr包中的str_count函数吗?

如果是这样,它使用正则表达式,并且在正则表达式的模式中 | 字符表示“或”,所以 str_count(mydf$string, 'apple|pear') 将计算“apple”或“pear”的出现次数以给出总数。 |字符的字符串可以用paste构造,试试:

str_count(mydf$string, paste(Uniques, collapse='|'))

您只需运行该部分代码即可看到由paste 构造的字符串。请注意,如果您构造一个具有很多选项的模式,那么它可能运行得非常慢。另一种选择是将第一个字符串拆分为单个单词,并使用 %in% 运算符将单词向量与选项向量进行比较(然后计算 TRUE)。

关于r - 使用 R 中的 str_count 函数计算多个模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26125474/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com