gpt4 book ai didi

machine-learning - 新闻文章的聚类

转载 作者:行者123 更新时间:2023-11-30 08:22:33 24 4
gpt4 key购买 nike

我的场景非常简单:我有一堆新闻文章(目前约为 1k),我知道其中一些报道相同的故事/主题。我现在想根据共享的故事/主题(即根据它们的相似性)对这些文章进行分组。

到目前为止,我所做的是应用基本的 NLP 技术,包括停用词删除和词干提取。我还计算了每篇文章的 tf-idf 向量,并且还可以根据这些 tf-idf 向量计算余弦相似度等。但现在对文章的分组我有点困难。我看到两种主要方法(可能相关)来做到这一点:

1) 机器学习/集群:我已经对现有的集群库进行了一些尝试,或多或少取得了成功;请参阅here 。一方面,诸如 k-means 之类的算法需要簇的数量作为输入,而我不知道这一点。其他算法需要的参数指定起来也不直观(对我来说就是这样)。

2)图算法:我可以将我的数据表示为图,其中文章作为节点,加权边表示文章之间的成对(余弦)相似度。例如,这样,我可以首先删除低于某个阈值的所有边,然后可以应用图形算法来查找强连接的子图。

简而言之,我不确定接下来该去哪里——我在这个领域还是个新手。我想知道是否有一些最佳实践,或者某种指南,哪些方法/算法可以(不)应用于某些场景。

(编辑:忘记链接到我的相关问题)

最佳答案

尝试层次凝聚聚类类 HAC具有单一和完整链接的算法。

这些算法不需要簇数作为输入。

基本原理类似于在给定的一组数据点上生长最小生成树,然后根据阈值标准停止。一个密切相关的类是 split 聚类算法,它首先构建最小生成树,然后根据簇间相似性比率修剪树的分支。

关于machine-learning - 新闻文章的聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25228219/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com