- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 sparseMatrix(库矩阵)或一个 simple_triplet_matrix(库 slam)文档 x 术语,例如:
library(Matrix)
mat <- sparseMatrix(i = c(1,2,4,5,3), j = c(2,3,4,1,5), x = c(3,2,3,4,1))
rownames(mat) <- paste0("doc", 1:5)
colnames(mat) <- paste0("word", 1:5)
5 x 5 sparse Matrix of class "dgCMatrix"
word1 word2 word3 word4 word5
doc1 . 3 . . .
doc2 . . 2 . .
doc3 . . . . 1
doc4 . . . 3 .
doc5 4 . . . .
或:
library(slam)
mat2 <- simple_triplet_matrix(c(1,2,4,5,3), j = c(2,3,4,1,5), v = c(3,2,3,4,1),
dimnames = list(paste0("doc", 1:5), paste0("word", 1:5)))
我希望将这些矩阵中的任何一个转换为 tm::Document-Term-Matrix,而无需通过 Corpus/VCorpus 创建。
这只适用于小矩阵: In R tm package, build corpus FROM Document-Term-Matrix
我的矩阵很大,~16K x ~53K,所以列表表明对于合理的 RAM 来说太大了,而且我不明白为什么我应该通过语料库创建,tm 包手册明确说明了文档术语矩阵是一个稀疏矩阵。
关于如何将已经稀疏的矩阵转换为 tm 的文档术语矩阵有什么建议吗?
谢谢。
最佳答案
诚然,文档在这里有点棘手。您可以在 simple_triplet_matrix
上使用强制函数 as.DocumentTermMatrix
但不能使用直接构造函数 DocumentTermMatrix
。
library(slam)
library(Matrix)
mat2 = simple_triplet_matrix(c(1,2,4,5,3), j = c(2,3,4,1,5), v = c(3,2,3,4,1),
dimnames = list(paste0("doc", 1:5), paste0("word", 1:5)))
mat2 = as.DocumentTermMatrix(mat2, weighting = weightTfIdf)
您可以检查:
> class(mat2)
[1] "DocumentTermMatrix" "simple_triplet_matrix"
关于r - 如何在 R 中不通过 Corpus/VCorpus 将稀疏或 simple_triplet_matrix 转换为 tm-package 文档术语矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28009371/
所以我有一个非常大的术语文档矩阵: > class(ph.DTM) [1] "TermDocumentMatrix" "simple_triplet_matrix" > ph.DTM A ter
我正在尝试转换以下使用tm包的TermDocumentMatrix()创建的简单三元组矩阵 A term-document matrix (317443 terms, 86960 documents)
使用 TM,我将 DocumentTermMatrix 与字典列表进行比较以计算总数: totals <- inspect(DocumentTermMatrix(x, list(dictionary
我有一个 sparseMatrix(库矩阵)或一个 simple_triplet_matrix(库 slam)文档 x 术语,例如: library(Matrix) mat class(mat2)
我有类似的问题,我从网上下载了一个很大的推文文件 将其保存为 data.txt 并使用 rstudio(导入数据集)加载到 R 中。 但有错误,无法继续。 This is step by step
我是一名优秀的程序员,十分优秀!