gpt4 book ai didi

pyspark - 使用 EMR 上的 PySpark 连接来自不同 Glue 目录的表

转载 作者:行者123 更新时间:2023-12-04 17:07:56 28 4
gpt4 key购买 nike

为了从 EMR 上的 PySpark 查询 Glue Catalog,我设置了参数 hive.metastore.glue.catalogid在我的集群配置中。
是否可以连接来自 的表不同的胶水目录 (在不同的 AWS 账户上)?
我尝试使用 Athena 创建从一个 AWS 租户到另一个租户的 View ,但显然 PySpark 无法查询 SQL View 。

最佳答案

这可以在 Pyspark 中通过设置目录分隔符配置来实现。

pyspark --conf spark.hadoop.aws.glue.catalog.separator="/"
然后可以直接从 Pyspark sql 查询中选择所需的目录。请注意,目录 ID(帐户 ID)由分隔符 / 分隔。 :
spark.sql(select * from `111122223333/demodb.tab1` t1 inner join  `444455556666/demodb.tab2` t2 on t1.col1 = t2.col2).show()
Source AWS Doc

关于pyspark - 使用 EMR 上的 PySpark 连接来自不同 Glue 目录的表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70134364/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com