gpt4 book ai didi

amazon-web-services - Redshift Spectrum 的性能问题

转载 作者:行者123 更新时间:2023-12-05 00:40:59 24 4
gpt4 key购买 nike

我正在使用 Redhshift 频谱。我创建了一个外部表并在 S3 上上传了一个包含大约 550 万条记录的 csv 数据文件。如果在这个外部表上触发查询,大约需要 15 秒,而如果我在 Amazon redshift 上运行相同的查询,我会在大约 2 秒内得到相同的结果。在 AWS 声称它是非常高性能的平台的情况下,这种性能滞后的原因可能是什么。请建议使用频谱获得相同性能的解决方案。

最佳答案

对于您的性能优化,请have a look了解您的查询。

目前,最好的性能是如果您没有单个 CSV 文件而是多个。通常,如果每个查询的文件数至少比集群的节点数大一个数量级,您可以说您获得了出色的性能。

此外,如果您使用 Parquet 文件,您将获得 S3 上的列格式的优势,而不是读取 CSV,后者将从 S3 读取整个文件 - 并且还降低了您的成本。

您可以使用 script将数据转换为 Parquet:

关于amazon-web-services - Redshift Spectrum 的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44952639/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com