gpt4 book ai didi

r - 从 R 中的 Document-Term-Matrix 过滤行/文档

转载 作者:行者123 更新时间:2023-12-04 12:02:16 24 4
gpt4 key购买 nike

使用 R 中的 tm-package 创建一个 Document-Term-Matrix:

dtm <- DocumentTermMatrix(cor, control = list(dictionary=c("someTerm")))

结果是这样的:
A document-term matrix (291 documents, 1 terms)

Non-/sparse entries: 48/243
Sparsity : 84%
Maximal term length: 8
Weighting : term frequency (tf)

Terms
Docs someTerm
doc1 0
doc2 0
doc3 7
doc4 22
doc5 0

现在我想根据文档中 someTerm 的出现次数过滤这个 Document-Term-Matrix。例如。仅过滤出 someTerm 至少出现一次的文档。 IE。 doc3 和 doc4 在这里。

我怎样才能做到这一点?

最佳答案

这与对常规 R 矩阵进行子集化的方式非常相似。例如,要从示例 Reuters 数据集创建一个文档术语矩阵,其中仅包含术语“would”出现多次的行:

reut21578 <- system.file("texts", "crude", package = "tm")

reuters <- VCorpus(DirSource(reut21578),
readerControl = list(reader = readReut21578XMLasPlain))

dtm <- DocumentTermMatrix(reuters)
v <- as.vector(dtm[,"would"]>1)
dtm2 <- dtm[v, ]

> inspect(dtm2[, "would"])
A document-term matrix (3 documents, 1 terms)

Non-/sparse entries: 3/0
Sparsity : 0%
Maximal term length: 5
Weighting : term frequency (tf)

Terms
Docs would
246 2
489 2
502 2

一个 tm文档术语矩阵是来自包 slam 的一个简单的三元组矩阵所以 slam文档有助于弄清楚如何操作 dtms。

关于r - 从 R 中的 Document-Term-Matrix 过滤行/文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24224298/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com