gpt4 book ai didi

mysql - 从 MySQL 数据库中获取随机数据但不重复数据

转载 作者:搜寻专家 更新时间:2023-10-30 20:18:11 24 4
gpt4 key购买 nike

我有一个随机产品列表(1000 个),每个产品都有一个 ID,我正在随机显示它们。我希望这些项目不重复。目前我正在做的是:

select * from products where product_id <> previous_product_id order by rand() limit 1;

我确保不会在之后直接出现相同的产品。重复产品通常出现得比我想要的要早得多(我相信我说这是 birthday problem 是对的)。我不知道以非重复方式获取随机数据的最有效方法是什么。我想到了一种我认为非常低效的方法:

我会为用户分配一个 ID(例如 foo),然后当他们看到一个项目时,将其添加到一个字符串中,该字符串将是 product_id_1 AND product_id_2 AND product_id_3 AND product_id_n。我会用 timestamp(进一步解释) 存储这些数据。

+--------------------------------------------------------------------------------------------+                                                                                          
|user_id |timestamp | product_seen_string |
|--------------------------------------------------------------------------------------------|
|foo |01-01-14 12:00:00 |product_id_1 AND product_id_2 AND product_id_3 AND product_id_n |
+--------------------------------------------------------------------------------------------+

有了这个 product_seen_string,我会继续添加到看到的产品(我也会更新时间戳),然后在查询中我会根据 user_id 进行第一次查询> 获取此字符串,然后将返回的字符串添加到获取随机产品的主查询中,如下所示:

select * from products where product_id <> product_id_1 AND product_id_2 AND product_id_3 AND product_id_n order by rand() limit 1;

我还会写到,如果没有产品被退回,那么数据将被删除,这样循环就可以重新开始。除了有一个每十分钟运行一次的 cron 作业以查看时间戳是否早于一个小时,我会删除它。

我使用的脚本语言是PHP

最佳答案

选择随机行总是很棘手,没有不涉及一些妥协的完美解决方案。要么妥协性能,要么妥协甚至随机分布,要么妥协选择重复的机会等。

作为@Giacomo1968 mentions in their answer ,任何带有 ORDER BY RAND() 的解决方案都无法很好地扩展。随着表中的行数越来越大,在文件排序中对整个表进行排序的成本越来越差。 Giacomo1968 是正确的,当排序顺序是随机的时候查询不能被缓存。但我不太关心这个,因为我通常无论如何都会禁用查询缓存(它有自己的可伸缩性问题)。

下面是通过创建一个 rownum 列并分配唯一的连续值来预先随机化表中行的解决方案:

ALTER TABLE products ADD COLUMN rownum INT UNSIGNED, ADD KEY (rownum);
SET @rownum := 0;
UPDATE products SET rownum = (@rownum:=@rownum+1) ORDER BY RAND();

现在您可以通过索引查找获得随机行,无需排序:

SELECT * FROM products WHERE rownum = 1;

或者你可以获得下一个随机行:

SELECT * FROM products WHERE rownum = 2;

或者您可以一次获得 10 个随机行,或者您想要的任何其他数字,没有重复:

SELECT * FROM products WHERE rownum BETWEEN 11 and 20;

您可以随时重新随机化:

SET @rownum := 0;
UPDATE products SET rownum = (@rownum:=@rownum+1) ORDER BY RAND();

进行随机排序的成本仍然很高,但现在您不必对每个 SELECT 查询都进行随机排序。您可以按计划进行,最好是在非高峰时间。

关于mysql - 从 MySQL 数据库中获取随机数据但不重复数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24046003/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com