- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我目前正在开发一个多线程程序(使用 Java),该程序需要在数据库中选择随机行,以便更新它们。这运行良好,但我开始遇到一些关于我的 SELECT 请求的性能问题。
在找到这个网站之前,我尝试了多种解决方案:
http://jan.kneschke.de/projects/mysql/order-by-rand/
我尝试了以下解决方案:
SELECT * FROM Table
JOIN (SELECT FLOOR( COUNT(*) * RAND() ) AS Random FROM Table)
AS R ON Table.ID > R.Random
WHERE Table.FOREIGNKEY_ID IS NULL
LIMIT 1;
它只选择生成的随机 ID 号下方的一行。这工作得很好(15 万行的每个请求平均不到 100 毫秒)。但是在我的程序处理之后,FOREIGNKEY_ID 将不再为 NULL(它将更新为一些值)。
问题是,我的 SELECT 会“忘记”一些行,因为 ID 低于随机生成的 ID,我将无法处理它们。
所以我尝试调整我的要求,这样做:
SELECT * FROM Table
JOIN (SELECT FLOOR(
(SELECT COUNT(id) FROM Table WHERE FOREIGNKEY_ID IS NULL) * RAND() )
AS Random FROM Table)
AS R ON Table.ID > R.Random
WHERE Table.FOREIGNKEY_ID IS NULL
LIMIT 1;
有了这个请求,不再有跳过某些行的问题,但性能却急剧下降(在 150k 行上每个请求平均 1s)。
当我还有很多行要处理时,我可以简单地执行快速的,当它只剩下几行时切换到慢速的,但这将是代码中的一个“脏”修复,我更喜欢可以完成这项工作的优雅 SQL 请求。
感谢您的帮助,如果我不清楚或者您需要更多详细信息,请告诉我。
最佳答案
为了使您的方法更通用,您需要 max(id)
而不是 count(*)
:
SELECT t.*
FROM Table t JOIN
(SELECT FLOOR(MAX(id) * RAND() ) AS Random FROM Table) r
ON t.ID > R.Random
WHERE t.FOREIGNKEY_ID IS NULL
ORDER BY t.ID
LIMIT 1;
通常添加 ORDER BY
以确保返回“下一个”id。理论上,MySQL 总是可以返回表中的最大 id。
问题是 ID 中的间隙。而且,很容易创建您永远不会获得随机数的分布。 . .假设这四个 id 是 1
、2
、3
、1000
。您的方法永远不会得到 1000000
。以上几乎总能搞定。
也许解决您的问题的最简单方法是多次运行第一个查询,直到它获得有效的行。下一个建议是 (FOREIGNKEY_ID, ID)
上的索引,子查询可以使用它。这可能会加快查询速度。
我更喜欢这样的东西:
SELECT t.id
FROM Table t
WHERE t.FOREIGNKEY_ID IS NULL AND
RAND() < 1.0 / 1000
ORDER BY RAND()
LIMIT 1;
WHERE
子句的目的是大大减少体积,因此 ORDER BY
不会花费太多时间。
不幸的是,这将需要扫描表格,因此您可能不会在 150k 表格上获得 100 毫秒范围内的响应。您可以将其简化为使用 t(FOREIGNKEY_ID, ID)
上的索引进行索引扫描。
编辑:
如果您想要一个合理的机会实现均匀分布并且性能不会随着表变大而增加,这是另一个想法,唉,它需要一个触发器。
向表中添加一个名为 random
的新列,该列使用 rand() 进行初始化。在
random` 上建立索引。然后运行查询,例如:
select t.*
from ((select t.*
from t
where random >= @random
order by random
limit 10
) union all
(select t.*
from t
where random < @random
order by random desc
limit 10
)
) t
order by rand();
limit 1;
这个想法是,子查询可以使用索引来选择一组 20 行,这些行是非常任意的——在所选点之前和之后各 10 行。然后对行进行排序(一些开销,您可以使用 limit
数字来控制)。这些是随机返回的。
想法是,如果您选择随机数,就会存在任意间隙,这些间隙会使所选数字不太统一。然而,通过在该值周围抽取更大的样本,那么选择任何一个值的概率应该接近均匀分布。均匀性仍然会有边缘效应,但这些在大量数据上应该是次要的。
关于mysql - SELECT 随机 id 的 SQL 优化(带 WHERE 子句),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43233059/
我试图从一些 sql 查询中获得一些额外的性能,这些查询在一个字段上有一个 where 子句,它是一个非唯一的非聚集索引,它也是表 A 中的一个外键。该外键是主键在表 B 上,是聚集索引。 我想知道的
当包含在 FOR 中时,应该如何编写此 WMIC 命令脚本中的命令? wmic service where (name="themes" and state="running") get 下面的代码不
请帮我理解如何订购 对over子句的影响。我已经阅读了 msdn 和一本书,但仍然误解了。 假设我们有这样的查询: SELECT Count(OrderID) over(Partition By Ye
参见如下SQL语句: SELECT datediff("d", MAX(invoice.date), Now) As Date_Diff , MAX(invoice.date) AS ma
不知何故,对我来说构建这样的查询有点困难:给我所有链接名称不为空的导航条目 $query = $this->db->get_where('navigation',array('linkname'!==
我一直在寻找这个,但没有发现任何特别的东西。 是否可以有一个像 ALL IN 一样的 SQL 查询?为了更好地解释,这是一个表结构。 Orders table OrderItem table (hav
SELECT DISTINCT Campaign_id FROM Impressions WHERE Date BETWEEN '2015-03-01' AND '2015-03-31' ; 上述查询
我尝试在 MyBatis 中遵循 if 子句并得到以下异常请帮助我确定这里的问题.. public class Student{ private Integer studId; private Str
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我尝试在 MyBatis 中遵循 if 子句并得到以下异常请帮助我确定这里的问题.. public class Student{ private Integer studId; private Str
是否可以用 where in 子句做这样的事情,我需要使用 where in 查询以下数据。 select * FROM instructor AS i INNER JOIN teaches AS t
嗨,我怎样才能让这个查询工作。我想要一个关于 where 子句的条件,如果 @BACHNUMB = '',那么 WHERE 是 (h.sopnumbe = @SOPNUMBE) 否则 WHERE 是
我在 MVC3 项目中工作。我浏览了一段时间并尝试了几个示例,但无法正常工作。 我需要从 OrderForm 表中获取记录列表,其 DeptID 在我已经获得的另一个列表中。 我知道我需要使用 Con
select * from staff LEFT JOIN servicereservation on servicereservation.snic = staff.snic where servi
我正在尝试使用 MySQL 创建带有“WITH”子句的 View WITH authorRating(aname, rating) AS SELECT aname, AVG(quantity)
我正在尝试使用 MySQL 创建触发器,但遇到错误。限制是:用户不得对他或她同时销售的商品出价。 Create Trigger before_insert_bid Before Insert on B
我正在尝试在 PostgreSql 的 WHERE IN 子句中使用 split_part,如下所示。这里 Objcode 是 small int 类型,objection 可能像 1374,824,
这可能很简单,只是我太厚了 - 我试图阻止保留的元素在记录中被拾取,但只有当库存大于 0 时,我不知道该怎么做除非 "....WHERE blah blah AND (reserved = 0 OR
我总结了两个表中两列的行,即如下所示: SUM( tableA.age ) + sum( tableB.age) as 'Total Ages' 但在某些情况下,A表的结果为空,而B表的结果则不是。在
我写了一个查询,从出生日期字段开始计算出一个人的年龄,然后使用 AS age 创建一个年龄字段。 我的问题是,是否可以再次匹配那个年龄字段? 像这样, SELECT `candidates`.`can
我是一名优秀的程序员,十分优秀!