gpt4 book ai didi

sorting - PARTITIONED BY、CLUSTERED BY 和 SORTED BY 与 BUCKETS 之间的 Hive 区别以及插入与 PARTITIONED 和 CLUSTER BY 的覆盖?

转载 作者:行者123 更新时间:2023-12-02 03:38:57 25 4
gpt4 key购买 nike

我看过一些关于创建分区的表的很好的解释,这些分区是 CLUSTERED BYSORTED BY。这与创建带分区的表,然后使用 CLUSTER BY 填充表(例如使用 INSERT OVERWRITE)相比如何? CLUSTER BY 是表中的持久排序吗?

最佳答案

即使 INSERT OVERWRITE + CLUSTER BY 会生成具有持久排序数据的表,除了创建 CLUSTERED BY 表之外,没有办法告诉 Hive 数据已经排序。只有当 Hive 知道它并因此可以优化查询时,您才能从排序数据(例如排序合并连接)中受益。数据不一定按照生成或传递给写入器的相同顺序写入磁盘,除非您指定该表是集群(排序)的。通常的(堆)表在理论上是没有排序的。 Writer 进程不会以与输入相同的顺序写入数据,因为它是缓冲的(延迟写入)和并行的。

关于sorting - PARTITIONED BY、CLUSTERED BY 和 SORTED BY 与 BUCKETS 之间的 Hive 区别以及插入与 PARTITIONED 和 CLUSTER BY 的覆盖?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21446126/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com