作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
是否有通用的在线算法来动态分类新闻?我有一个巨大的按主题分类的新闻数据集。我将每个主题视为一个集群。现在我需要对突发新闻进行分类。也许,我需要动态生成新主题或新集群。
我使用的算法如下:
1) 我浏览了一组来自新闻网站的提要,并且识别出新闻链接。
2) 对于每个新链接,我使用拖网提取内容,然后对其进行标记。
3) 我使用 sklearn 的 TfidfVectorizer 找到所有旧新闻和最后一个新闻的向量表示。
4)我在数据集中找到最近的邻居,计算与最后一个新闻向量表示和旧新闻的所有向量表示的欧几里德距离。
5) 如果该距离小于阈值,我将其放入邻居所属的集群中。否则,我会创建一个新的集群,其中包含突发新闻。
每次收到新闻时,我都会使用 TfidfVectorizer 重新拟合所有数据,因为可以创建新的维度。我迫不及待地每天重新安装一次,因为我需要检测可能与未知主题相关的突发事件。是否有一种通用方法比我正在使用的方法更有效?
最佳答案
如果您自己构建矢量化,添加新数据会容易得多。
对此有众所周知且非常快速的实现。
例如 Apache Lucene。它可以在线添加新文档,并使用 tfidf 的变体进行搜索。
关于machine-learning - 新闻文章在线聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49638869/
我是一名优秀的程序员,十分优秀!