gpt4 book ai didi

twitter - 用于主题检测的推文之间的表示和良好的相似性度量

转载 作者:行者123 更新时间:2023-11-30 08:26:46 25 4
gpt4 key购买 nike

我计划编写一个用于 Twitter 上的主题检测的工具。我一直在考虑两条推文之间的良好相似性度量(距离),以及如何表示它们,并考​​虑计数:

  • #hashtags(我认为主题标签在检测 Twitter 上的主题时非常重要)
  • 回复(如果有人回复推文,这些推文可能谈论同一主题,尽管两个人可以开始谈论三星银河 并结束谈论iphone 越狱等)

我正在考虑实现我迄今为止所拥有的并做一些实验。我将实现经典模型(例如 TF*IDF 并使用欧几里得距离、角度余弦等)和 bool 模型具有一些相似性度量(HammingJaccard 等)。

关于如何使某些现有模型适应 Twitter 的任何想法,或者关于如何创建新模型的一些想法?

最佳答案

Similarity Metrics on Twitter讨论了有关可用于将 Twitter 中的数据聚类在一起的不同相似性度量的一些详细信息。我们根据用户连接、用户提及、地理位置、推文之间的内容相似度、用户描述和常见 #hashtags 之间的内容相似度对 Twitter 上的用户进行了一些聚类研究。

对于在 Twitter 上查找共同主题,查找讨论该主题的用户之间的联系确实很有帮助,我们发现一组用户倾向于讨论一个共同主题。 this post的后半部分有一些关于这方面的细节。 .

关于twitter - 用于主题检测的推文之间的表示和良好的相似性度量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14726292/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com