gpt4 book ai didi

python - 在 python 中将一个文本文件聚类为组和主题

转载 作者:行者123 更新时间:2023-12-01 05:15:42 25 4
gpt4 key购买 nike

我是文本挖掘领域的新手,我有一个非常大的文本文件,其中每一行代表对某个项目(一个句子)的评论。

我想找到评论中存在的群组和主题。所以我的问题是我的数据有哪些特征、组和主题?每个词的出现频率可以作为特征吗?我们是否必须将每一行(评论)视为一个文档本身,然后我们必须对评论进行聚类?我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,簇的数量都应该是已知参数。

我的第二个问题是如何编辑此k-means clustering code查找组和 NMF code使用我的reviews.txt 文件查找主题。

最佳答案

首先,正如评论中所建议的,您可以从一本关于文本挖掘或信息检索的好书中获取基础知识。我的建议是:Introduction to Information Retrieval .

现在尝试简要回答您的问题:

//我的问题是特征是什么//- 与大多数文本挖掘问题一样,您的情况下的特征可能是每个句子中的术语(单词)。您可以估计术语频率并使用 TF-IDF表示,一种非常流行的表示文档的方式。

//groups//- 由于每个句子都代表一个单独的评论,因此您可以将每个句子视为一个小文档并使用 document clustering来识别组。

//我的数据的主题?//- 是的,有一个叫做 topic modelling 的东西,这将帮助您从文档集合中识别主题。但是,不确定它是否适用于您的问题。

//我们是否必须将每一行(评论)视为一个文档本身,然后我们必须对评论进行聚类?//- 是的。

//我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,簇的数量都应该是已知参数。//- 事实并非如此。许多聚类算法不需要先验知识。簇数,例如hierarchical clustering , affinity propagation 。即使对于期望没有的算法。簇中,有 number of ways来预测这一点。

关于python - 在 python 中将一个文本文件聚类为组和主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23283115/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com