gpt4 book ai didi

amazon-web-services - 传统数据湖与 AWS Lake Formation

转载 作者:行者123 更新时间:2023-12-04 00:25:13 25 4
gpt4 key购买 nike

我一直在为客户设置数据湖,我们将数据从本地或任何其他来源加载到 S3(数据湖)中。我们将根据这些原始数据创建 AWS Glue 目录以创建架构。

下一步是使用 EMR 或 AWS Glue 进行一些数据清理,将转换后的数据加载到 RDS/REDSHIFT/S3 作为最终目标。

可以使用数据管道、Glue 作业或 AWS Lambda 事件触发器来安排作业,具体取决于所使用的用例/服务。

将使用 IAM 服务为分析师、其他用户提供所需的数据/S3 存储桶访问权限,以进行 Quicksight 可视化或使用 Athena、Drill 等进行数据查询,或将数据用于 Sagemaker 中的 ML 应用程序。

我的问题是 AWS Lake Formation 与上述传统数据湖有何不同?

我可以定义 AWS Lake Formation 提供上述所有服务,例如 S3、Glue Catalog、Glue 中的 ETL 代码生成器、Job scheduler 等,都可以在单个窗口中使用吗?为用户/数据(记录/列级别)提供一些更高级的安全性,可以在 Lake Formation 控制台中进行配置。

还有什么让 Lake Formation 从传统的基于云的 Data Lake 中脱颖而出?

谢谢

最佳答案

AWS Lake Formation 主要是一个权限控制层,它与 AWS Glue 相结合,基本上提供了与权限控制相结合的目录。 Lake Formation 提供了对 IAM 权限管理的缓和,而是使用简单的 DB 类授权来提供其自己的基于授权的细粒度权限控制。

Lake Formation 在与 EMR 等数据服务的集成方面仍然存在一些挑战。(它需要额外的 IAM 政策)但总体而言,将 Lake Formation 与 S3 结合使用,Glue ETL 提供了构建数据湖所需的一切。

Lake Formation 仍然可以从改进的 UI 和数据发现中受益。

您可以使用 Lake Formation 来实现传统样式的 Data Lake,或者使它们更加模块化,并跨多个 AWS 账户提供支持。

关于amazon-web-services - 传统数据湖与 AWS Lake Formation,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57569020/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com