gpt4 book ai didi

presto - Athena 中大小为 N 的随机样本

转载 作者:行者123 更新时间:2023-12-03 02:39:08 25 4
gpt4 key购买 nike

我正在尝试从 Athena 获取 N 行的随机样本。但由于我想从中提取这个样本的表格很大,所以天真

SELECT
id
FROM mytable
ORDER BY RANDOM()
LIMIT 100

需要很长时间才能运行,可能是因为 ORDER BY 要求将所有数据发送到单个节点,然后该节点对数据进行打乱和排序。

我知道TABLESAMPLE但这允许对一定百分比的行而不是一定数量的行进行采样。有更好的方法吗?

最佳答案

Athena 实际上落后于 Presto。您可以使用 TABLESAMPLE 获取表的随机样本。

假设您想要表的 10% 样本,您的查询将类似于:

从 mytable TABLESAMPLE BERNOULLI(10) 中选择 id

注意有伯努利采样和系统采样。 Here是它的文档。

关于presto - Athena 中大小为 N 的随机样本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44510714/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com