gpt4 book ai didi

reddit - Reddit 如何追踪热门帖子

转载 作者:行者123 更新时间:2023-12-02 05:35:58 26 4
gpt4 key购买 nike

Reddit 对于热门帖子有不同的存储桶。他们有“此时”、“今天”、“本周”、“本月”、“今年”、“所有时间”。我能想到的创建这些列表的最佳方法是用时间戳保存每个投票,以便您可以计算每个存储桶的帖子分数。这将是一个昂贵的查询,但他们可以摆脱它,因为 Top 对于所有用户来说都是相同的,并且变化不大,因此他们可以缓存查询结果。

这只是我对正在发生的事情的最佳猜测,但我很好奇,这是 Reddit 实际正在做的事情还是有更好的方法?

最佳答案

首先,“这个小时”、“今天”、“本周”等都是指提交(链接/评论)创建的时间,而不是投票发生的时间。我将在这里重点关注链接,但评论也会以类似的方式处理以显示在用户页面上。

简短回答:一堆 cron 作业拉取相关时间段,对链接进行排序并按 subreddit 进行分组,然后存储缓存的链接列表以供快速阅读。

详细来说,每个时间段都有不同的 cron 作业。例如,“当前最佳”作业的运行频率比“今年最佳”作业的运行频率高得多。每个作业要做的第一件事就是从数据库中拉出在感兴趣的时间段内创建的所有链接的列表。这些数据被转储到一个文本文件中,原始的映射缩减系统在其中处理数据。链接已分组并排序。最终结果列表将作为链接 ID 的简单列表放入 Cassandra,可以非常快速地根据请求进行查找。

来源:https://github.com/reddit/reddit/blob/master/scripts/compute_time_listings

FWIW,个人投票确实附加了时间戳,但它们不直接用于跟踪热门。

关于reddit - Reddit 如何追踪热门帖子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21449696/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com