fuzzy-comparison - 如何对相似的新闻文章进行分组/比较-6ren

fuzzy-comparison - 如何对相似的新闻文章进行分组/比较

转载作者：行者123 更新时间：2023-12-04 06:28:02

25

4

在我正在创建的应用程序中，我想添加将新闻故事组合在一起的功能。我想将来自不同来源的关于同一主题的新闻故事分组到同一个组中。例如，来自 CNN 和 MSNBC 的关于 XYZ 的文章将属于同一组。我猜它是某种模糊逻辑比较。从技术角度来看，我将如何做到这一点？我有哪些选择？我们甚至还没有启动应用程序，因此我们可以使用的技术不受限制。

在此先感谢您的帮助!

最佳答案

从机器学习的角度来看，这个问题分解为几个子问题。

首先，您将要弄清楚要根据哪些新闻故事进行分组。一种常见的技术是使用 'word bags' :只是出现在故事正文或标题中的单词列表。你可以做一些额外的处理，比如去掉那些没有意义的普通英语“stop words”，比如“the”，“because”。你甚至可以做porter stemming删除复数词和词尾的冗余，例如“-ion”。这个单词列表是每个文档的特征向量，将用于测量相似度。您可能需要进行一些预处理才能删除 html 标记。

其次，你必须定义一个相似度指标:相似的故事在相似度上得分很高。使用词袋方法，如果两个故事中有相似的词，它们就是相似的(我在这里含糊不清，因为你可以尝试很多东西，你必须看看哪个效果最好)。

最后，可以使用经典的聚类算法，如k-means clustering ，它根据相似度度量将故事分组在一起。

综上所述:将新闻故事转化为特征向量 -> 根据该特征向量定义相似度度量 -> 无监督聚类。

查看 Google scholar ，在最近的文献中可能已经有一些关于这个特定主题的论文。我刚刚讨论的很多这些东西都是在大多数主要语言的自然语言处理和机器学习模块中实现的。

关于fuzzy-comparison - 如何对相似的新闻文章进行分组/比较，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3320753/

25

4

0

文章推荐： ASP.NET 在 Web 应用程序上删除目录时会丢失 session 数据

文章推荐： oracle10g - 计划表中的操作栏有什么作用？

文章推荐： visual-studio - 更改 NuGet 包位置文件夹

fuzzy-logic - 模糊逻辑中范围约束的目的
定义语言变量时，通常会指定最小值和最大值。例如，在定义温度变量时，有人可能会指定 -40C 和 +85C 作为该变量的范围。然后在变量的总体范围内定义模糊集的成员(例如冷、温、热)。在实际应用中，如
fuzzy-search - 轻量级模糊搜索库
你能推荐一些轻量级的模糊文本搜索库吗？我想要做的是允许用户为有拼写错误的搜索词找到正确的数据。我可以使用像 Lucene 这样的全文搜索引擎，但我认为这是一种矫枉过正。编辑: 为了使问题更清楚，
fuzzy-search - 如何在大型字符串数据库中找到字符串的最佳模糊匹配
我有一个字符串数据库(任意长度)，其中包含超过一百万个项目(可能更多)。我需要将用户提供的字符串与整个数据库进行比较，并检索相同的字符串(如果存在)，否则返回最接近的模糊匹配(相似度为60％或更高)
fuzzy-search - 最佳模糊匹配算法？
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
fuzzy-logic - 剪辑中的模糊事实
我制作了一个模糊模板，它将代表学生在某个领域的知识。问题是，在宣布学生 John 为 low 后，他也将被宣布为 med，因为 low 学生的年龄也在 30 到 40 之间。如何在不医疗的情况下宣布
"fuzzy matching"字符串的算法
我所说的模糊匹配并不是指通过 Levenshtein 距离或类似的东西来表示相似的字符串，而是它在 TextMate/Ido/Icicles 中的使用方式:给定一个字符串列表，找到包含搜索字符串中所有
Java 基本笔画 "Fuzzy"
我正在尝试用 Java 编写一个简单的绘图小程序，但我在使用 BasicStroke 时遇到了问题。最初，我的计划是尝试以某种方式绘制一条有宽度的线，但 API 显然不支持。我尝试使用 BasicS
excel - "Fuzzy Lookup"添加结果
使用 Excel 2010 和 Microsoft“模糊查找”添加来比较 2 个工作表中的一列。第一个工作表有大约 48,000 行(x 3 列)，第二个工作表有大约 23,000 行(x 5 列)。
fuzzy-comparison - 如何对相似的新闻文章进行分组/比较
在我正在创建的应用程序中，我想添加将新闻故事组合在一起的功能。我想将来自不同来源的关于同一主题的新闻故事分组到同一个组中。例如，来自 CNN 和 MSNBC 的关于 XYZ 的文章将属于同一组。我猜它
elasticsearch - Elasticsearch match_phrase + fuzziness
我正在使用 ElasticSearch，我正在尝试实现 match_phrase/string + fuzziness，但似乎不可能(在线示例不多，文档中没有此类案例)。我需要的是:短语/字符串匹配
perl: Text::Fuzzy，不同的字符串给出相同的编辑距离？
检查 $barcode 和两个字符串之间的距离，第一个字符串在前面有相同的 12 个字符，另一个完全不同但都给出相同的距离？ #!/usr/bin/perl use warnings; use str
javascript - 如何对数组进行 "fuzzy"指纹识别
对于我当前的项目，我需要找到一种“模糊”的方法——在客户端对 JavaScript 数组进行指纹识别。问题在于数组中的元素会随时间变化。通过更改我的意思是订单是稳定的，但一些元素可能会被删除，而其他
fuzzy-search - 如何将 fzf 查询复制到命令行？
我想知道是否有办法让模糊搜索工具“fzf”将查询复制到命令行以便能够对其进行编辑，以防没有令人满意的匹配。谢谢。最佳答案您可以创建一个键绑定(bind)，将所选文件的路径(或该文件的内容)复制到
javascript - lambda : filter by "fuzzy search"
我有 IMDb 的 100 部最佳电影列表。鉴于标题，我试图通过它找到一种“模糊搜索”的方法。即，如果您输入“shaw”，结果将显示“肖申克的救赎”。如果未输入任何内容(即 search 是空字符串)
elasticsearch - 在某些字段上完全匹配，在其他字段上搜索 “fuzzy”吗？
我试图创建一个查询，以完全匹配某些字段，例如account_id和from_addresses(这是一个数组)，同时也模糊匹配另一个字段(例如message_content)。做这个的最好方式是什么？
c# - 搜索列表 FirstOrDefault StartsWith fuzzy
如果我使用以下代码，我将找到一个以“X”开头的 Item.ShowName - 如果存在的话。 List myList = new List(); //Fill list with items Art
MySQL 针对 "fuzzy matching"重复项优化查询？
我正在清理继承的脏数据库，需要“模糊匹配”名称以供人工审核。我想出了一个可行的解决方案，但速度非常慢——15k 行需要 7 分钟。我感觉我忽略了一些非常简单的解决方案。记录示例: 1 John S
rust - 对于数字类型的 "fuzzy compare"，我可以使用什么特征？
我正在尝试用 Rust 编写一个“模糊比较”函数。这是一个例子: fn fuzzy_cmp(a: f64, b: f64, tolerance: f64) -> bool { a >= b
Elasticsearch:替代 Fuzzy Like This 查询弃用
引用此 link它说 Fuzzy Like This(也是 Fuzzy Like This 查询)将在 ES 版本 > 1.6 中弃用，并在版本 2 中完全删除。我正在使用 Elasticsearch
c - American Fuzzy Lop 以一个简单的例子失败
我一直在尝试使用 American Fuzzy Lop，但我无法使用像这样的简单示例来实现它: #include #include int main(int argc, char * argv[]

首页

博学

6Ren·AI

商城

fuzzy-comparison - 如何对相似的新闻文章进行分组/比较