gpt4 book ai didi

fuzzy-comparison - 如何对相似的新闻文章进行分组/比较

转载 作者:行者123 更新时间:2023-12-04 06:28:02 24 4
gpt4 key购买 nike

在我正在创建的应用程序中,我想添加将新闻故事组合在一起的功能。我想将来自不同来源的关于同一主题的新闻故事分组到同一个组中。例如,来自 CNN 和 MSNBC 的关于 XYZ 的文章将属于同一组。我猜它是某种模糊逻辑比较。从技术角度来看,我将如何做到这一点?我有哪些选择?我们甚至还没有启动应用程序,因此我们可以使用的技术不受限制。

在此先感谢您的帮助!

最佳答案

从机器学习的角度来看,这个问题分解为几个子问题。

首先,您将要弄清楚要根据哪些新闻故事进行分组。一种常见的技术是使用 'word bags' :只是出现在故事​​正文或标题中的单词列表。你可以做一些额外的处理,比如去掉那些没有意义的普通英语“stop words”,比如“the”,“because”。你甚至可以做porter stemming删除复数词和词尾的冗余,例如“-ion”。这个单词列表是每个文档的特征向量,将用于测量相似度。您可能需要进行一些预处理才能删除 html 标记。

其次,你必须定义一个相似度指标:相似的故事在相似度上得分很高。使用词袋方法,如果两个故事中有相似的词,它们就是相似的(我在这里含糊不清,因为你可以尝试很多东西,你必须看看哪个效果最好)。

最后,可以使用经典的聚类算法,如k-means clustering ,它根据相似度度量将故事分组在一起。

综上所述:将新闻故事转化为特征向量 -> 根据该特征向量定义相似度度量 -> 无监督聚类。

查看 Google scholar ,在最近的文献中可能已经有一些关于这个特定主题的论文。我刚刚讨论的很多这些东西都是在大多数主要语言的自然语言处理和机器学习模块中实现的。

关于fuzzy-comparison - 如何对相似的新闻文章进行分组/比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3320753/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com