gpt4 book ai didi

amazon-redshift - 为什么 Redshift COPY 查询为带有排序键的表使用(更多)磁盘空间

转载 作者:行者123 更新时间:2023-12-04 11:23:47 24 4
gpt4 key购买 nike

我在 S3 上有数百个 CSV 文件形式的大量数据,总共约 1.7 TB(未压缩)。我正在尝试将它复制到 Redshift 集群上的一个空表。

集群是空的(没有其他表)并且有 10 个 dw2.large 节点。如果我在表上设置排序键,复制命令会用完所有可用磁盘空间大约 25%,然后中止。如果没有排序键,则复制成功完成并且永远不会使用超过 45% 的可用磁盘空间。无论我是否还设置了分发 key ,此行为都是一致的。

我真的不知道为什么会发生这种情况,或者是否在意料之中。有没有人见过这种行为?如果是这样,您对如何解决它有什么建议吗?一个想法是尝试单独导入每个文件,但我很想找到一种方法让 Redshift 自己处理该部分并在一个查询中完成所有操作。

最佳答案

从 Redshift 团队那里得到了答案。群集需要至少为传入数据大小 2.5 倍的可用空间,以用作排序的临时空间。您可以扩大集群规模、复制数据,然后再缩小规模。

关于amazon-redshift - 为什么 Redshift COPY 查询为带有排序键的表使用(更多)磁盘空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26332738/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com