gpt4 book ai didi

algorithm - 标准分数的时间范围

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:35:11 24 4
gpt4 key购买 nike

为了寻找热门话题,我将标准分数与移动平均值结合使用:

z-score = ([current trend] - [average historic trends]) / [standard deviation of historic trends]

(Thank you very much, Nixuz)

到目前为止,我是这样做的:

无论时间是什么,对于历史趋势,我只是回溯 24 小时。假设现在是 1 月 12 日下午 3:45:

current_trend = hits [1 月 11 日 3:45 - 1 月 12 日 3:45]

historic_trends = 命中 [1 月 10 日 3:45 - 1 月 11 日 3:45] + 命中 [1 月 9 日 3:45 - 1 月 10 日 3:45] + 命中 [1 月 8 日 3:45 - 1 月 9 日, 3:45] + ...

但这真的足够吗?如果我总是在 00:00 点开始不是更好吗?例如,对于相同的数据(下午 3:45),这种方式:

current_trend = hits [1 月 11 日 0:00 - 1 月 12 日 0:00]

historic_trends = 命中 [1 月 10 日 0:00 - 1 月 11 日 0:00] + 命中 [1 月 9 日 0:00 - 1 月 10 日 0:00] + 命中 [1 月 9 日 0:00 - 1 月 9 日, 0:0] + ...

我相信结果会有所不同。但哪种方法会给您带来更好的结果?

希望您已经理解我的问题并且可以帮助我。 :) 提前致谢!

最佳答案

我认为您当前实现的问题可能是 23 小时前的热门话题现在正在影响您的排名。我在您提出的新实现方案中看到的问题是,您要在午夜时分清空过去,因此昨晚很热门的主题在第二天早上似乎不会很热门(但应该如此)。

我建议您考虑实现一种 Digg 风格的算法,其中主题的热度会随着年龄的增长而衰减。为此,您可以计算过去 24 小时内每个时段的点击次数/小时,然后将每个时段得分除以该时段发生的小时数。将 24 个周期相加得到分数。

辣度 = (score24/24) + (score23/23) + ... + (score2/2) + score1

其中 score24 是一个主题在 24 小时前的一小时内获得的“点击”次数(可能不是准确的点击,而是该小时的归一化分数)。

这样,24 小时前的热门话题仍会被计入您的算法,但不会像 1 小时前的热门话题那样重要。

关于algorithm - 标准分数的时间范围,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1003162/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com