gpt4 book ai didi

twitter - Twitter 源的聚类

转载 作者:行者123 更新时间:2023-11-30 09:56:53 28 4
gpt4 key购买 nike

我是集群新手,之前刚刚实现了一些算法。我需要根据推文的相似性对推文进行聚类。一种方法是仅使用哈希标签,但我认为这不会提供那么多信息。因此应该分析完整的推文。

此外,我还在网上搜索聚类提要的算法。

我遇到的一个是 TF-IDF。我想知道是否有更好的算法可以在几个小时内实现并且比 TF-IDF 更好。此外,我还想了解一些有关 Twitter 提要聚类的信息学来源。

PS:推文数量:10^5

最佳答案

正如 Anony Mousse 在上面的评论中指出的那样,TF/IDF 只是一种标准化措施,以确保在所有文档中过于流行的单词不会变得太重要。

对于数据准备,我建议阅读 this以及它的第二部分(通过上面的链接链接),如果您还没有这样做的话。从每条推文中获取数字向量非常重要。一般来说,在机器学习中,获取特征向量很重要,因为这样您就可以将数学算法应用于数据。

现在您的集合中的每条推文都有了一个特征向量,事情就变得有点简单了。我想到了两种聚类算法,每种算法都可以在几个小时内完成,可能需要一个周末才能进行广泛的测试。

  • K 均值聚类
  • 具有单链接的层次聚类

仅使用 100,000 条推文,您实际上应该能够使用您最喜欢的语言(C++、Java、Python、MATLAB、 ETC。)。就我个人而言,我认为与层次聚类(我之前也做过)相比,实现 K-Means 聚类(我之前做过)更容易。

编辑:仅当您有标记训练数据时,请遵循以下评论,即您有推文,带有标记的情绪(快乐用户,好的,好的,坏产品,愤怒的用户, abusive-user),您要回答的问题是:给定一条新推文,它的情绪是什么?

这里有一个非常好的资源,您应该查看,以更好地了解 K 最近邻:

总的来说,对于其他两种算法,有充足的资源,维基百科文章是最好的开始方式。就我个人而言,我认为 K 最近邻(简写 k-NN)是这三种方法中最容易实现的,并且可以快速提供结果。

关于twitter - Twitter 源的聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23222150/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com