gpt4 book ai didi

duplicates - 贝叶斯过滤器标记重复项目

转载 作者:行者123 更新时间:2023-12-02 00:59:48 26 4
gpt4 key购买 nike

我收集某些主题的新闻,然后对它们运行贝叶斯分类器以将它们标记为有趣或不有趣。我看到有一些新闻,不同的文章本质上是相同的新闻。例如- 本·金斯利 (Ben Kingsley) 与妻子参观泰姬陵- 金斯利在泰姬陵的草坪上与妻子浪漫

我如何教系统将所有这些标记为重复项?

谢谢桑杰

最佳答案

有趣的想法。我猜想这之前已经被研究过,看看一些计算机科学期刊应该会发现一些好的建议。这就是我的一些想法:

方法

您可以找到最独特的关键短语,并查看它们与其他文章的关键短语的匹配程度。我想象 google 发布的数据网络上短语的频率将为您提供基线。

不知何故,您需要认识到“在”是一个非常常见的短语,但“金斯利访问”很重要。一旦您将所有文本过滤为关键短语,您就可以看到其中有多少是匹配的。

关键词:

  • 所有动词、名词、名称和新颖(新/拼写错误)单词的集合
  • 您可以抓取一到五个单词长的短语
  • 删除所有非常常见的内容(可以对常见短语进行分类)
  • 查看文章之间有多少匹配项。
  • 有一个可控 slider 来设置匹配阈值

如果你自己写这个并不容易,但我想说这是一个非常有趣的问题领域。

示例

如果我们只使用标题并手动遵循该方法。

Ben Kingsley 与妻子参观泰姬陵将创建以下关键字:

  • 本·金斯利
  • 金斯利
  • 金斯利来访
  • 妻子
  • 玛哈尔
  • ...等等...

但这些应该被删除,因为它们太常见(因此无助于唯一地标识内容)

  • 与妻子

对另一个标题Kingsley在泰姬陵的草坪上浪漫妻子进行同样的处理后,您可以比较并发现相当多的关键短语彼此匹配。因此它们是同一主题。

尽管这已经是一项艰巨的任务,但您可以做很多事情来进一步匹配。

扩展

这些都是在创建关键字集后对其进行修剪的方法。

  1. WordNet对于寻找“更长”和“延长”之间的匹配将是一个很好的开始。这将很有用,因为文章不会使用相同的词典进行写作。

  2. 您可以对什么算作关键短语运行贝叶斯分类器。可以通过所有匹配/不匹配文章及其关键短语的集合来训练它。您必须小心如何处理未见过的短语,因为这些可能是您遇到的最重要的事情。在不是关键短语上运行它甚至可能会更好。

  3. 计算 Levenshtein distance 甚至可能是一个想法。如果没有其他匹配项,则在某些关键短语之间进行查找。我猜很可能总会找到一些匹配项。

我有一种感觉,这是一个非常好的答案会让你获得博士学位的事情之一。再说一次,我想它已经完成了before (谷歌必须有某种自动方式来抓取所有这些新闻网站并将它们放入类别和类似文章中)

祝你好运。

关于duplicates - 贝叶斯过滤器标记重复项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1873225/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com