gpt4 book ai didi

algorithm - 如何在类似推特的场景中计算趋势词?

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:24:55 25 4
gpt4 key购买 nike

我正在创建类似 Twitter 的应用程序。

我卡在了一个点上。
我将所有推文与用户个人资料一起存储。

现在我必须创建一个算法以在性能方面更好地工作,以计算所有用户中整个应用程序中 HitTest 门的词。

作为我的外行方法:

  1. 命中完整的数据库
  2. 搜索重复出现的词
  3. 为重复出现的单词创建记录
  4. 记录 1000 个最常出现的单词

但在大型应用程序中,这对我来说似乎很重

谁能提出一些更好的方法?

最佳答案

您可能只想检索前一小时或前一天左右的帖子,而不是整个数据库

您应该过滤掉非常常见的词,例如 100 most common English words - 您不希望“the”成为热门词

同样,我建议您每个帖子只计算一次单词,因此带有“booger booger booger booger booger”的帖子和带有“booger”的帖子都符合只有一次“booger”一词的实例

如果您不需要知道准确的字数,那么您可以随机扫描最新帖子的样本,例如10%

如果您可以使用分而治之的方法,那么这将有助于加快速度

关于algorithm - 如何在类似推特的场景中计算趋势词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17404703/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com