gpt4 book ai didi

amazon-web-services - AWS Glue + Athena/Hive 是替代复杂 SQL 查询的正确选择吗?

转载 作者:行者123 更新时间:2023-12-02 02:52:25 25 4
gpt4 key购买 nike

我一直在使用 AWS Athena 跨多个表查询存储在 S3 上的分析数据。一段时间以来,我提出了 2-3 个复杂的 SQL 查询(涉及多个连接)来提取相关数据。因为,Athena 用于临时查询(而不是预定义查询),除了处理几个 TB 和 30 分钟超时的高昂成本外,我正在寻找替代方案。

我能想到的两种选择是:

  • 使用基于 Presto 的 EMR 集群并运行现有查询。它取消了 30 分钟的限制并(可能)降低成本(5 美元/TB)。但是,缺点是在连续运行中重新处理相同的数据。
  • 执行 ETL(例如通过 AWS Glue)并对数据进行非规范化。这应该减少重复连接,因为只处理增量数据。随后使用一些 SQL 接口(interface) - Athena/Hive 查询展平数据。但是,除了存储冗余(巨大)数据的成本之外,我不确定非规范化是否是一个好主意。

  • 其中哪一个是更好的选择,或者对于这个问题有更好的标准技术?

    最佳答案

    我认为最好先执行 2(非规范化),然后执行 1(在优化的数据布局上运行 Presto)。
    此外,具有基于成本的优化器的 Presto 可能值得一看:https://www.starburstdata.com/technical-blog/starburst-presto-on-aws-18x-faster-than-emr/

    关于amazon-web-services - AWS Glue + Athena/Hive 是替代复杂 SQL 查询的正确选择吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51670680/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com