gpt4 book ai didi

python - 通过 PRESTO 连接器选择随机数据样本

转载 作者:行者123 更新时间:2023-12-01 21:21:22 32 4
gpt4 key购买 nike

我目前正在寻找如何从表中获取随机数据样本的最佳方式(例如在 HIVE 中)。我知道 PRESTO 提供 RANDOM() 函数或 TABLESAMPLE BERNOULLI/SYSTEM。问题是在查询有大量记录的表时,需要花费大量时间,这不适合与 JayDeBeApi 配合使用,这可能会关闭连接等待响应时间过长。

我更喜欢使用 TABLESAMPLE BERNOULLI/SYSTEM,它将要获取的记录的百分比作为参数。与能够传递精确百分比的 ORACLE、SAP 或 MSSQL 数据库相比,即 0.003123412%,PRESTO 不允许您,尽管功能非常相似,并且所有内容都在 1-100% 的范围内转换。

有人知道如何解决这个问题吗?我宁愿避免与可能无法按预期工作的 TABLESAMPLE BERNOULLI/SYSTEM 合作的 limit 子句。

最佳答案

使用 Presto 341(即将发布)您可以

 ... FROM my_table TABLESAMPLE BERNOULLI (0.01)

正如@michal.kyjovsky 指出的那样,旧版本有一个错误,需要使用科学记数法来获得亚百分比的采样率

 ... FROM my_table TABLESAMPLE BERNOULLI (0.01e0)

关于python - 通过 PRESTO 连接器选择随机数据样本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63726874/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com