gpt4 book ai didi

statistics - 盲目地对传入数据中的新趋势进行分类

转载 作者:行者123 更新时间:2023-12-04 18:53:44 25 4
gpt4 key购买 nike

像谷歌新闻这样的新闻媒体如何自动对关于新兴主题的文档进行分类和排名,比如“奥巴马的 2011 年预算”?

我有一堆用棒球数据标记的文章,比如球员姓名和文章的相关性(谢谢,opencalais),我很想创建一个谷歌新闻风格的界面,在新帖子进来时进行排名和显示,尤其是新兴的帖子话题。我想可以用一些静态类别训练朴素贝叶斯分类器,但这并不能真正跟踪趋势,例如“这名球员刚刚被交易到这支球队,其他球员也参与其中。”

最佳答案

毫无疑问,Google 新闻可能会使用其他技巧(甚至是它们的组合),但一种相对便宜的技巧,在计算上,从自由文本中推断主题将利用 NLP 概念 一个词只有在连接到其他词时才有意义 .
可以从多个文档中发现新主题类别的算法可以概括如下:

  • POS(词性)标记文本
    我们可能希望更多地关注名词,甚至更多地关注命名实体(例如奥巴马或新英格兰)
  • 规范化文本
    特别是用它们的共同词干替换变形词。甚至可能用相应的命名实体替换一些形容词(例如:Parisian ==> Paris,legal ==> law)
    此外,删除干扰词和干扰表达。
  • 从手动维护的“当前/重复出现的热门词”列表中识​​别一些词( super 碗、选举、丑闻......)
    这可以在后续步骤中用于为某些 N-gram 提供更多权重
  • 枚举在每个文档中找到的所有 N-gram(其中 N 是 1 表示 4 或 5)
    请务必分别计算给定文档中每个 N-gram 的出现次数以及引用给定 N-gram 的文档数量
  • 最常引用的 N-gram(即在大多数文档中引用的那些)可能是主题。
  • 确定现有主题(从已知主题列表中)
  • [可选] 手动查看新主题

  • 还可以更改此通用方法以利用文档的其他属性和其中的文本。例如,文档来源(比如 cnn/sports vs. cnn/politics ...)可用于选择特定领域的词典。另一个例子,该过程可以或多或少地强调来自文档标题(或具有特定标记的文本的其他区域)的词/表达。

    关于statistics - 盲目地对传入数据中的新趋势进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2180915/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com