gpt4 book ai didi

r - 使用R的单词频率列表

转载 作者:行者123 更新时间:2023-12-03 13:18:18 26 4
gpt4 key购买 nike

我一直在使用tm包来运行一些文本分析。
我的问题是创建一个单词及其频率与之相关的列表

library(tm)
library(RWeka)

txt <- read.csv("HW.csv",header=T)
df <- do.call("rbind", lapply(txt, as.data.frame))
names(df) <- "text"

myCorpus <- Corpus(VectorSource(df$text))
myStopwords <- c(stopwords('english'),"originally", "posted")
myCorpus <- tm_map(myCorpus, removeWords, myStopwords)

#building the TDM

btm <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = btm))

我通常使用以下代码生成频率范围内的单词列表
frq1 <- findFreqTerms(myTdm, lowfreq=50)

有没有办法使它自动化,以便我们得到一个包含所有单词及其频率的数据帧?

我面临的另一个问题是将术语文档矩阵转换为数据帧。当我处理大量数据样本时,遇到内存错误。
有一个简单的解决方案吗?

最佳答案

尝试这个

data("crude")
myTdm <- as.matrix(TermDocumentMatrix(crude))
FreqMat <- data.frame(ST = rownames(myTdm),
Freq = rowSums(myTdm),
row.names = NULL)
head(FreqMat, 10)
# ST Freq
# 1 "(it) 1
# 2 "demand 1
# 3 "expansion 1
# 4 "for 1
# 5 "growth 1
# 6 "if 1
# 7 "is 2
# 8 "may 1
# 9 "none 2
# 10 "opec 2

关于r - 使用R的单词频率列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18101047/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com