gpt4 book ai didi

r - 如何创建一个术语矩阵来对与每个文档关联的数值求和?

转载 作者:行者123 更新时间:2023-12-04 11:24:49 24 4
gpt4 key购买 nike

我对 R 和 tm 有点陌生,所以很难完成这个练习!

我有一个描述列,其中包含困惑的非结构化数据,其中包含有关客户姓名、城市和国家/地区的文字。另一列包含已售商品的数量。

**Description   Sold Items**
Mrs White London UK 10
Mr Wolf London UK 20
Tania Maier Berlin Germany 10
Thomas Germany 30
Nick Forest Leeds UK 20
Silvio Verdi Italy Torino 10
Tom Cardiff UK 10
Mary House London 5

使用 tm 包和 documenttermmatrix,我能够将每一行分解为术语并获得每个词的频率(即使用该词的客户数量)。

         UK London  Germany …   Mary
Frequency 4 3 2 … 1

但是,我还想对已售商品的总金额求和。

期望的输出应该是:

         UK London  Germany …   Mary
Frequency 4 3 2 … 1
Sum of Sold Items 60 35 40 … 5

我怎样才能得到这个结果?

最佳答案

假设您可以到达拥有 Frequency 表的阶段:

           UK London  Germany …   Mary
Frequency 4 3 2 … 1

并且您可以提取单词,您可以使用带有 grep 的应用函数。在这里,我将创建一个向量,代表您从 frequency 表中提取的字典:

S_data<-read.csv("data.csv",stringsAsFactors = F)

Words<-c("UK","London","Germany","Mary")

然后在应用中使用它,如下所示。这可以更有效地完成。但是你会明白的:

string_rows<-sapply(Words, function(x) grep(x,S_data$Description))

string_sum<-unlist(lapply(string_rows, function(x) sum(S_data$Items[x])))
> string_sum
UK London Germany Mary
60 35 40 5

只需将其绑定(bind)到您的频率

关于r - 如何创建一个术语矩阵来对与每个文档关联的数值求和?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37210268/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com