gpt4 book ai didi

r - R 中文本向量字典中单词匹配的快速计数

转载 作者:行者123 更新时间:2023-12-02 04:33:25 36 4
gpt4 key购买 nike

我有一个很长的 R 简短文本向量(例如,长度为 1000 万)。列表的前五项如下:

  1. “我是一只愤怒的老虎。”
  2. “我很不高兴。”
  3. “我是一只愤怒且不快乐的老虎。”
  4. “我是一只愤怒、愤怒的老虎。”
  5. “嘟嘟声。”

我有一本字典,我们会说它是由“愤怒”和“不高兴”这两个词组成的。

从文本向量上的字典中获取匹配项计数的最快方法是什么?在这种情况下,正确的答案是向量[1, 1, 2, 2, 0]

我尝试过涉及 quantedatm 的解决方案,基本上它们都失败了,因为我无法在内存中存储任何大型文档特征矩阵。使用 qdapdplyrtermco 的任何解决方案均可获得奖励积分。

最佳答案

使用stringi包,

library(stringi)
stri_count_regex(v1, paste(v2, collapse = '|'))
#[1] 1 1 2 2 0

数据

dput(v1)
c("I am an angry tiger.", "I am unhappy clam.", "I am an angry and unhappy tiger.",
"I am an angry, angry, tiger.", "Beep boop.")
dput(v2)
c("angry", "unhappy")

关于r - R 中文本向量字典中单词匹配的快速计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41423668/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com