gpt4 book ai didi

machine-learning - 新闻文章在线聚类

转载 作者:行者123 更新时间:2023-11-30 08:29:24 25 4
gpt4 key购买 nike

是否有通用的在线算法来动态分类新闻?我有一个巨大的按主题分类的新闻数据集。我将每个主题视为一个集群。现在我需要对突发新闻进行分类。也许,我需要动态生成新主题或新集群

我使用的算法如下:

1) 我浏览了一组来自新闻网站的提要,并且识别出新闻链接。

2) 对于每个新链接,我使用拖网提取内容,然后对其进行标记。

3) 我使用 sklearn 的 TfidfVectorizer 找到所有旧新闻和最后一个新闻的向量表示。

4)我在数据集中找到最近的邻居,计算与最后一个新闻向量表示和旧新闻的所有向量表示的欧几里德距离。

5) 如果该距离小于阈值,我将其放入邻居所属的集群中。否则,我会创建一个新的集群,其中包含突发新闻。

每次收到新闻时,我都会使用 TfidfVectorizer 重新拟合所有数据,因为可以创建新的维度。我迫不及待地每天重新安装一次,因为我需要检测可能与未知主题相关的突发事件。是否有一种通用方法比我正在使用的方法更有效?

最佳答案

如果您自己构建矢量化,添加新数据会容易得多。

  1. 您可以轻松添加新单词作为新列,所有早期文档的新列都为 0。
  2. 不要应用 idf 权重,而仅将其用作动态权重。

对此有众所周知且非常快速的实现。

例如 Apache Lucene。它可以在线添加新文档,并使用 tfidf 的变体进行搜索。

关于machine-learning - 新闻文章在线聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49638869/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com