gpt4 book ai didi

cluster-analysis - 如何基于主题对短消息 [Tweets] 进行聚类? [基于主题的聚类]

转载 作者:行者123 更新时间:2023-12-04 12:25:19 25 4
gpt4 key购买 nike

我正在计划一个应用程序,它将根据主题制作短消息/推文集群。主题的数量将受到限制,例如体育 [NBA、NFL、板球、足球]、娱乐 [电影、音乐] 等...

我可以想到两种方法来解决这个问题

  • 要求用户像 Stackoverflow 那样标记问题。用户可以从预定义的标签列表中选择标签。然后在服务器端,我将根据标签对它们进行聚类。
    优点: - 简单的设计。代码复杂度较低。
    缺点:- 用户的选择将受到限制。
    集群不会是动态的。如果发生新事件,预定义的标签将错过它。
  • 取消息,删除停用词[在字典中预定义],在词干消息上应用一些聚类算法来制作一个聚类,并根据它的流行度显示聚类。该集群将一直显示到它保持流行的时间[许多消息/分钟]。新消息将被浏览并分配到相应的集群。
    优点:- 基于事件/事故流行度的动态聚类。
    缺点:- 增加了复杂性。需要更多的服务器资源。

  • 我想知道是否有其他方法可以解决此问题。或者有什么方法可以改进上述方法?

    还建议一些好的聚类算法。我认为“K-Nearest Clustering”算法适合这种情况。

    最佳答案

    看看 Carrot2,这个工具从文本和集群中提取标签。您可以从 here 下载并检查实现的算法(主要是术语)here .

    希望这对你有帮助。

    关于cluster-analysis - 如何基于主题对短消息 [Tweets] 进行聚类? [基于主题的聚类],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2930958/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com