- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是文本挖掘领域的新手,我有一个非常大的文本文件,其中每一行代表对某个项目(一个句子)的评论。
我想找到评论中存在的群组和主题。所以我的问题是我的数据有哪些特征、组和主题?每个词的出现频率可以作为特征吗?我们是否必须将每一行(评论)视为一个文档本身,然后我们必须对评论进行聚类?我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,簇的数量都应该是已知参数。
我的第二个问题是如何编辑此k-means clustering code查找组和 NMF code使用我的reviews.txt 文件查找主题。
最佳答案
首先,正如评论中所建议的,您可以从一本关于文本挖掘或信息检索的好书中获取基础知识。我的建议是:Introduction to Information Retrieval .
现在尝试简要回答您的问题:
//我的问题是特征是什么//- 与大多数文本挖掘问题一样,您的情况下的特征可能是每个句子中的术语(单词)。您可以估计术语频率并使用 TF-IDF表示,一种非常流行的表示文档的方式。
//groups//- 由于每个句子都代表一个单独的评论,因此您可以将每个句子视为一个小文档并使用 document clustering来识别组。
//我的数据的主题?//- 是的,有一个叫做 topic modelling 的东西,这将帮助您从文档集合中识别主题。但是,不确定它是否适用于您的问题。
//我们是否必须将每一行(评论)视为一个文档本身,然后我们必须对评论进行聚类?//- 是的。
//我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,簇的数量都应该是已知参数。//- 事实并非如此。许多聚类算法不需要先验知识。簇数,例如hierarchical clustering , affinity propagation 。即使对于期望没有的算法。簇中,有 number of ways来预测这一点。
关于python - 在 python 中将一个文本文件聚类为组和主题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23283115/
我是一名优秀的程序员,十分优秀!