r - 文本挖掘稀疏/非稀疏意义-6ren

r - 文本挖掘稀疏/非稀疏意义

转载作者：行者123 更新时间：2023-12-04 12:28:58

24

4

有人可以告诉我，下面的代码和输出的含义吗？我确实在这里创建了语料库

frequencies = DocumentTermMatrix(corpus)
frequencies

输出是

<<DocumentTermMatrix (documents: 299, terms: 1297)>>
Non-/sparse entries: 6242/381561
Sparsity           : 98%
Maximal term length: 19
Weighting          : term frequency (tf)

稀疏的代码在这里。

sparse = removeSparseTerms(frequencies, 0.97)
sparse

输出是

> sparse
<<DocumentTermMatrix (documents: 299, terms: 166)>>
Non-/sparse entries: 3773/45861
Sparsity           : 92%
Maximal term length: 10
Weighting          : term frequency (tf)

这里发生了什么，非/稀疏条目和稀疏性是什么意思？有人可以帮助我理解这些。

谢谢你。

最佳答案

通过此代码，您创建了语料库的文档术语矩阵

frequencies = DocumentTermMatrix(corpus)

文档术语矩阵 (DTM) 按文档列出语料库中所有出现的单词。在 DTM 中，文档由行表示，术语(或词)由列表示。如果某个词出现在特定文档中，则对应该行和该列的矩阵条目为 1，否则为 0(记录在一个文档中多次出现——即，如果一个词在一个文档中出现两次，则为在相关矩阵条目中记录为“2”)。

例如，考虑具有两个文档的语料库。

Doc1:香蕉很好

Doc2:香蕉是黄色的

上述语料库的 DTM 看起来像

              banana          are        yellow       good
Doc1            1               1          1            0

Doc2            1               1          0            1

输出

<<DocumentTermMatrix (documents: 299, terms: 1297)>>
Non-/sparse entries: 6242/381561
Sparsity           : 98%
Maximal term length: 19
Weighting          : term frequency (tf)

输出表明 DTM 有 299 个条目，其中有超过 1297 个至少出现过一次的术语。

sparse = removeSparseTerms(frequencies, 0.97)

现在您正在删除那些在您的数据中不经常出现的术语。我们将删除任何未出现在至少 3% 的条目(或文档)中的元素。与上面创建的 DTM 相关，我们基本上删除了条目数最少为 1 的那些列。

现在，如果您查看输出

> sparse
<<DocumentTermMatrix (documents: 299, terms: 166)>>
Non-/sparse entries: 3773/45861
Sparsity           : 92%
Maximal term length: 10
Weighting          : term frequency (tf)

条目(文档)的数量仍然相同，即 299，但至少出现一次的术语数量已更改为 166。

关于r - 文本挖掘稀疏/非稀疏意义，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38141711/

24

4

0

文章推荐： r - 使用另一列中给定条件的两列组合展开 data.table

文章推荐： string - 如何在 Julia 中获取字符串的子字符串？

文章推荐： coq - 我可以安全地假设同构类型是相等的吗？

文章推荐： r - 使用knitr为JSS写论文

javascript - 挖掘 JavaScript 对象的路径
我正在尝试提取 MultiLevelPushMenu 插件中当前元素的根路径。 https://github.com/adgsm/multi-level-push-menu 所有者给出了将根级路径提取
sql-server - 用于检查/挖掘 SQL 分析服务挖掘模型的前端应用程序
我目前使用 Excel 和 SQL Server 商业智能工作室来浏览我的模型，但我一直在寻找一个体面的、中等用户友好的前端应用程序，可用于通过 SSAS 挖掘模型跋涉。我了解如何将预测用于特定目的
gcc 可以对未知的迭代次数进行循环优化( strip 挖掘/阻塞)吗？
我正在尝试使用 GCC >= 4.4 中可用的 Graphite 循环优化框架，但如果迭代次数未知，我似乎无法让它应用任何转换。例如。这个示例代码: int __attribute__((hot))
python - 如何使用 awk、Perl 或 Python 挖掘 XML 文档？
我有一个具有以下数据格式的 XML 文件: .... 谁能告诉我如何使用 awk 单行程序对 XML 文件进行数据挖掘？例如，我想知道 abc 的 attr3。它会返回 345 给我。最佳答案
Azure Active Directory - 从 JWT token 挖掘 oAuth2Permission、appRole 和组声明
场景:我在不同的 Azure 租户中有 2 个 AAD 应用程序 - 让我们调用租户 A 和 B。租户 A 中的应用程序定义了租户 B 中的应用程序已同意的自定义 appRole 和 oAuth2Pe
Azure Active Directory - 从 JWT token 挖掘 oAuth2Permission、appRole 和组声明
场景:我在不同的 Azure 租户中有 2 个 AAD 应用程序 - 让我们调用租户 A 和 B。租户 A 中的应用程序定义了租户 B 中的应用程序已同意的自定义 appRole 和 oAuth2Pe

首页

博学

6Ren·AI

商城

r - 文本挖掘稀疏/非稀疏意义