gpt4 book ai didi

hadoop - AWS 中使用 EC2-s 和 EFS 的 ETL 过程

转载 作者:可可西里 更新时间:2023-11-01 15:48:49 26 4
gpt4 key购买 nike

我是一名数据工程师,在设计和创建数据集成和 ELT 流程方面拥有丰富的经验。以下是我的用例,我需要将我的流程转移到 aws,想听听您的意见?我要处理的文件在 s3 中。我需要使用 Hadoop 处理这些文件。我有用 hive 编写的现有逻辑,只需要将其迁移到 aws。以下方法是否正确/可行?

  1. 启动一组 ec2 实例,最初是 5 个,启用自动缩放。
  2. 创建一个 EFS,并将其挂载到 ec2 实例上。
  3. 将文件从 s3 复制到 EFS 作为 Hadoop 表。
  4. 在 EFS 中的数据之上运行配置单元查询并创建新表。
  5. 该过程完成后,将最终报告表从 EFS 移动/导出到 s3(以某种方式)。不确定这是否可能,如果这不可能,那么整个解决方案是不可行的。6.终止 EFS 和 EC2 实例。

如果上述方法正确,Hadoop编排是如何使用EFS进行的?

谢谢,韩国

最佳答案

Spin up a fleet of ec2 instances, initially say 5, enable autoscaling.

我不确定您是否需要自动缩放。为什么?假设您启动了一个“大”查询,这会占用大量时间和 CPU。

自动缩放将启动更多实例,但它将如何在新机器上开始运行查询的“部分”?

在运行查询之前,所有机器都需要准备就绪。请记住。或者换句话说:只有现在可用的机器才能处理查询。

Copy file from s3 to EFS as Hadoop tables.

这个想法没有任何问题。请记住,您可以将数据保存在 EFS 中。

如果 EFS 对您来说太贵了,请检查提供 EBS-magnetic with Raid 0 的选项。您将以最低的成本获得极快的速度。

其余的没问题,这是进行“按需”交互式分析的方法之一。

请查看AWS Athena .

这是一项允许您对 s3 对象运行查询的服务。

您可以使用 Json 甚至 Parquet(效率更高!)

这项服务可能足以满足您的需求。

祝你好运!

关于hadoop - AWS 中使用 EC2-s 和 EFS 的 ETL 过程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53573756/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com