gpt4 book ai didi

amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的 Metastore

转载 作者:行者123 更新时间:2023-12-04 15:39:35 26 4
gpt4 key购买 nike

假设数据湖位于 AWS 上。使用 S3 作为存储,使用 Glue 作为数据目录。
因此,我们可以使用 Glue 作为 Metastore 轻松地使用 athena、redshift 或 EMR 来查询 S3 上的数据。

我的问题是,是否可以将 Glue 数据目录公开为托管在 AWS 上的 Databricks 等外部服务的元存储?

最佳答案

Databricks 提供了一些不错的文档/文章(参见 docsblog post),尽管它们涵盖了自定义/传统 Hive Metastore 集成,而不是 Glue 本身。

此外 - 作为 B 计划 - 应该可以检查您在 Databricks 元存储中的表/分区定义,并通过 Java SDK 单向复制到 Glue(或者也可能反过来,将 AWS API 响应映射到序列create table/create partition 声明)。当然,这充满了相当复杂的极端情况,例如级联分区/表删除等,但对于一些简单的仅创建内容,它似乎至少是平易近人的。

关于amazon-s3 - AWS Glue 数据目录作为 Databricks 等外部服务的 Metastore,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49848911/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com