作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我找到了一种在术语文档矩阵中使用二元组而不是单个标记的方法。解决方案已在 stackoverflow 上提出:findAssocs for multiple terms in R
这个想法是这样的:
library(tm)
library(RWeka)
data(crude)
#Tokenizer for n-grams and passed on to the term-document matrix constructor
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
txtTdmBi <- TermDocumentMatrix(crude, control = list(tokenize = BigramTokenizer))
Error in rep(seq_along(x), sapply(tflist, length)) :
invalid 'times' argument
In addition: Warning message:
In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
最佳答案
受到 Anthony 评论的启发,我发现您可以指定 parallel
的线程数。库默认使用(在调用 NgramTokenizer
之前指定它):
# Sets the default number of threads to use
options(mc.cores=1)
NGramTokenizer
好像卡在
parallel::mclapply
调用,更改线程数似乎可以解决此问题。
关于r - 使用 R 和 Rweka 在 termdocument 矩阵中使用 bigrams 而不是单个单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17703553/
我找到了一种在术语文档矩阵中使用二元组而不是单个标记的方法。解决方案已在 stackoverflow 上提出:findAssocs for multiple terms in R 这个想法是这样的:
我是一名优秀的程序员,十分优秀!