gpt4 book ai didi

r - 文本挖掘稀疏/非稀疏意义

转载 作者:行者123 更新时间:2023-12-04 12:28:58 24 4
gpt4 key购买 nike

有人可以告诉我,下面的代码和输出的含义吗?我确实在这里创建了语料库

frequencies = DocumentTermMatrix(corpus)
frequencies

输出是
<<DocumentTermMatrix (documents: 299, terms: 1297)>>
Non-/sparse entries: 6242/381561
Sparsity : 98%
Maximal term length: 19
Weighting : term frequency (tf)

稀疏的代码在这里。
sparse = removeSparseTerms(frequencies, 0.97)
sparse

输出是
> sparse
<<DocumentTermMatrix (documents: 299, terms: 166)>>
Non-/sparse entries: 3773/45861
Sparsity : 92%
Maximal term length: 10
Weighting : term frequency (tf)

这里发生了什么,非/稀疏条目和稀疏性是什么意思?有人可以帮助我理解这些。

谢谢你。

最佳答案

通过此代码,您创建了语料库的文档术语矩阵

frequencies = DocumentTermMatrix(corpus)

文档术语矩阵 (DTM) 按文档列出语料库中所有出现的单词。在 DTM 中,文档由行表示,术语(或词)由列表示。如果某个词出现在特定文档中,则对应该行和该列的矩阵条目为 1,否则为 0(记录在一个文档中多次出现——即,如果一个词在一个文档中出现两次,则为在相关矩阵条目中记录为“2”)。

例如,考虑具有两个文档的语料库。

Doc1:香蕉很好

Doc2:香蕉是黄色的

上述语料库的 DTM 看起来像
              banana          are        yellow       good
Doc1 1 1 1 0

Doc2 1 1 0 1

输出
<<DocumentTermMatrix (documents: 299, terms: 1297)>>
Non-/sparse entries: 6242/381561
Sparsity : 98%
Maximal term length: 19
Weighting : term frequency (tf)

输出表明 DTM 有 299 个条目,其中有超过 1297 个至少出现过一次的术语。
sparse = removeSparseTerms(frequencies, 0.97)

现在您正在删除那些在您的数据中不经常出现的术语。我们将删除任何未出现在至少 3% 的条目(或文档)中的元素。与上面创建的 DTM 相关,我们基本上删除了条目数最少为 1 的那些列。

现在,如果您查看输出
> sparse
<<DocumentTermMatrix (documents: 299, terms: 166)>>
Non-/sparse entries: 3773/45861
Sparsity : 92%
Maximal term length: 10
Weighting : term frequency (tf)

条目(文档)的数量仍然相同,即 299,但至少出现一次的术语数量已更改为 166。

关于r - 文本挖掘稀疏/非稀疏意义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38141711/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com