作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的场景非常简单:我有一堆新闻文章(目前约为 1k),我知道其中一些报道相同的故事/主题。我现在想根据共享的故事/主题(即根据它们的相似性)对这些文章进行分组。
到目前为止,我所做的是应用基本的 NLP 技术,包括停用词删除和词干提取。我还计算了每篇文章的 tf-idf 向量,并且还可以根据这些 tf-idf 向量计算余弦相似度等。但现在对文章的分组我有点困难。我看到两种主要方法(可能相关)来做到这一点:
1) 机器学习/集群:我已经对现有的集群库进行了一些尝试,或多或少取得了成功;请参阅here 。一方面,诸如 k-means 之类的算法需要簇的数量作为输入,而我不知道这一点。其他算法需要的参数指定起来也不直观(对我来说就是这样)。
2)图算法:我可以将我的数据表示为图,其中文章作为节点,加权边表示文章之间的成对(余弦)相似度。例如,这样,我可以首先删除低于某个阈值的所有边,然后可以应用图形算法来查找强连接的子图。
简而言之,我不确定接下来该去哪里——我在这个领域还是个新手。我想知道是否有一些最佳实践,或者某种指南,哪些方法/算法可以(不)应用于某些场景。
(编辑:忘记链接到我的相关问题)
最佳答案
尝试层次凝聚聚类类 HAC具有单一和完整链接的算法。
这些算法不需要簇数作为输入。
基本原理类似于在给定的一组数据点上生长最小生成树,然后根据阈值标准停止。一个密切相关的类是 split 聚类算法,它首先构建最小生成树,然后根据簇间相似性比率修剪树的分支。
关于machine-learning - 新闻文章的聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25228219/
我是一名优秀的程序员,十分优秀!