gpt4 book ai didi

apache-spark - 在 VM 集群上安装 Presto 并将其连接到不同 Yarn 集群上的 HDFS

转载 作者:行者123 更新时间:2023-12-01 04:28:54 33 4
gpt4 key购买 nike

我们有一个带有 10 台 Linux 工作机器的 HDP 2.6.4 spark 集群。

集群通过 HDFS 运行 Spark 应用程序。 HDFS 安装在所有工作线程上。

我们希望安装将查询集群 HDFS 的 presto,但是由于工作机器中缺乏 CPU 资源(每台机器只有 32 个内核),我们计划在集群外安装 presto。

为此,我们有多个 ESX,每个 ESX 将有 2 个 VM,每个 VM 将运行一个 presto 服务器。

所有 ESX 机器将通过 10g 网卡连接到 Spark 集群,这样两个集群将在同一网络中。

我的问题是 - 我们可以在 VM 集群上安装 presto,尽管 HDFS 不在 ESX 集群上(而是在 spark 集群上)?

编辑:

从我们得到的答案看来,在 VM 上安装 presto 是标准的,所以我想澄清我的问题:

Presto 在 presto/etc 下有一个名为 hive.properties 的配置文件。

在该文件中有一个名为 hive.config.resources 的参数,其值如下:

/etc/hadoop/conf/presto-hdfs-site.xml,/etc/hadoop/conf/presto-core-site.xml

这些文件是 HDFS 配置文件,但由于 VM 集群和 Spark 集群(包含 HDFS)是独立的(VM 集群上的 presto 应该访问驻留在 Spark 集群上的 HDFS),问题是 –

这些文件应该从spark集群复制到VM集群吗?

最佳答案

关于您的问题 - 我的问题是 - 我们可以在 VM 集群上安装 presto,尽管 HDFS 不在 ESX 集群上(而是在 Spark 集群上)?

答案是肯定的

在这个不与 HDFS 共同托管的集群上,不要忘记在 hive.properties 中设置 fowling 参数。

hive.force-local-scheduling=false

关于apache-spark - 在 VM 集群上安装 Presto 并将其连接到不同 Yarn 集群上的 HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55692363/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com