python - 在 python 中将一个文本文件聚类为组和主题-6ren

python - 在 python 中将一个文本文件聚类为组和主题

转载作者：行者123 更新时间：2023-12-01 05:15:42

我是文本挖掘领域的新手，我有一个非常大的文本文件，其中每一行代表对某个项目(一个句子)的评论。

我想找到评论中存在的群组和主题。所以我的问题是我的数据有哪些特征、组和主题？每个词的出现频率可以作为特征吗？我们是否必须将每一行(评论)视为一个文档本身，然后我们必须对评论进行聚类？我还想知道是否应该事先知道组或主题的数量，因为在任何无监督算法中，簇的数量都应该是已知参数。

我的第二个问题是如何编辑此k-means clustering code查找组和 NMF code使用我的reviews.txt 文件查找主题。

最佳答案

首先，正如评论中所建议的，您可以从一本关于文本挖掘或信息检索的好书中获取基础知识。我的建议是:Introduction to Information Retrieval .

现在尝试简要回答您的问题:

//我的问题是特征是什么//- 与大多数文本挖掘问题一样，您的情况下的特征可能是每个句子中的术语(单词)。您可以估计术语频率并使用 TF-IDF表示，一种非常流行的表示文档的方式。

//groups//- 由于每个句子都代表一个单独的评论，因此您可以将每个句子视为一个小文档并使用 document clustering来识别组。

//我的数据的主题？//- 是的，有一个叫做 topic modelling 的东西，这将帮助您从文档集合中识别主题。但是，不确定它是否适用于您的问题。

//我们是否必须将每一行(评论)视为一个文档本身，然后我们必须对评论进行聚类？//- 是的。

//我还想知道是否应该事先知道组或主题的数量，因为在任何无监督算法中，簇的数量都应该是已知参数。//- 事实并非如此。许多聚类算法不需要先验知识。簇数，例如hierarchical clustering , affinity propagation 。即使对于期望没有的算法。簇中，有 number of ways来预测这一点。

关于python - 在 python 中将一个文本文件聚类为组和主题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23283115/

文章推荐： python - 将值放在矩阵中的随机位置

文章推荐： perl - 使用 Type::Tiny 将类型参数化为另一种类型

文章推荐： python - 在 Python 中指定项目分隔符

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 在 python 中将一个文本文件聚类为组和主题