gpt4 book ai didi

hadoop - Hive 聚集在多个列上

转载 作者:可可西里 更新时间:2023-11-01 14:15:04 35 4
gpt4 key购买 nike

我知道,当配置单元表在一列上聚集时,它会对该分桶列执行哈希函数,然后将该行数据放入其中一个桶中。每个桶都有一个文件,即如果有 32 个桶,则 hdfs 中有 32 个文件。

在多个列上聚类是什么意思?例如,假设该表有 CLUSTERED BY (continent, country) INTO 32 BUCKETS。

如果有多个列,哈希函数将如何执行?

将生成多少个文件?这还是32吗?

最佳答案

  1. 是的,文件数仍为 32。
  2. 哈希函数将通过将“continent,country”视为单个字符串来运行,然后将其用作输入。

希望对您有所帮助!

关于hadoop - Hive 聚集在多个列上,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30871354/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com