gpt4 book ai didi

hadoop - 如何对 hive 中的每个组进行采样?

转载 作者:可可西里 更新时间:2023-11-01 14:57:24 26 4
gpt4 key购买 nike

我在配置单元中有一个大表,其中包含超过 15 亿的值。其中一列是 category_id,它有大约 20 个不同的值。我想对表格进行抽样,以便每个类别都有 100 万个值。

我 checkout Random sample table with Hive, but including matching rowsHive: Creating smaller table from big table我想出了如何从整个表中获取随机样本,但我仍然无法弄清楚如何为每个 category_id 获取样本。

最佳答案

我知道您想在多个文件中对表格进行抽样。您可能想查看 Hive bucketingDynamic partitions平衡多个文件夹/文件之间的记录。

关于hadoop - 如何对 hive 中的每个组进行采样?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35887317/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com