gpt4 book ai didi

apache-spark - 从一个配置单元读取所有表,然后使用 spark 写入另一个集群上的另一个配置单元

转载 作者:可可西里 更新时间:2023-11-01 14:50:57 25 4
gpt4 key购买 nike

我们可以通过将 hive-site.xml 放在 spark 的“conf”方向来从 hive 读取或写入表。但是现在我有两个可以相互连接的集群。让`假设 hive 1 在集群上,hive 2 在另一个集群上

现在我需要从配置单元 1 读取数据并做一些转换然后写入配置单元 2,问题是我只能将一个 hive-site.xml 文件放入 spark conf,这意味着当我执行

someDataFrame.write.saveAsTable("dbName.tableName")

,会保存到hive 1而不是hive 2,因为spark只识别一个hive(hive 1)

我的问题是我可以使用 spark 读写不同集群上的不同配置单元吗?

最佳答案

因为在此操作期间只有一个 Hive Context 处于事件状态,所以我要说这是不可能的。

至少,您必须在“本地”Hive metastore 中将表实际注册为具有 LOCATION hdfs://othernamenode:9000/table/path 的外部表,然后创建 Spark那样写,不过没试过

或者,查看 Circus Train迁移 Hive 表的项目

关于apache-spark - 从一个配置单元读取所有表,然后使用 spark 写入另一个集群上的另一个配置单元,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53864893/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com