hadoop - 如何将 presto 集群集成到 hadoop 集群？-6ren

hadoop - 如何将 presto 集群集成到 hadoop 集群？

转载作者：可可西里更新时间：2023-11-01 15:43:17

24

4

我们有基于ambari的Hadoop集群由于 thrift server 性能不佳，我们决定用 presto 替换它我们当前的 Hadoop 集群有以下机器960台数据节点机器(基于redhat 7 OS)

关于presto的几句话-Presto(或 PrestoDB)是一个开源的分布式 SQL 查询引擎，从头开始设计用于对任何大小的数据进行快速分析查询。它同时支持非关系源，例如 Hadoop 分布式文件系统 (HDFS)，

我们安装了新的presto server如下首先我们安装了操作系统( redhat 7 ) ，一共13台机器1台用于presto协调器的机器还有 12 台机器供 presto worker 使用

安装操作系统后我们成功安装了 presto (presto coordinator + presto workers)

现在卡在presto集群到Hadoop集群怎么集成上了

我将给出有关配置单元连接器 ( hive.properties ) 的简短示例

我们有以下变量hive.config.resources=/etc/hadoop/conf/core-site.xml,/etc/hadoop/conf/hdfs-site.xml

由于这个文件位于数据节点机器上，当然不在 presto worker 机器上，我假设我们需要将这些文件从其中一个数据节点机器复制到 presto worker 机器上

我在这儿吗？

最佳答案

您通常不需要配置 hive.config.resources 来允许 Presto 与您的 HDFS 集群通信。尝试在没有该配置的情况下使用 Presto。仅在您有特殊要求(例如 Hadoop KMS)时配置它。

要配置它，将适当的 Hadoop 配置文件复制到您的 Presto 机器(协调器和工作器)，然后设置 hive.config.resources 以指向这些文件。

参见 Hive connector documentation了解更多详情。

关于hadoop - 如何将 presto 集群集成到 hadoop 集群？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55743740/

24

4

0

文章推荐： hadoop - 重新部署后 HBase 协处理器未更新

postgresql - 集群 PostgreSQL 集群
由于 PostgreSQL 人员选择的术语不当，这会让一些人感到困惑，但请耐心等待... 我们需要能够支持多个 PostgreSQL (PG) 集群，并将它们集群在多个服务器上，例如使用repmgr.
hadoop - 1 个大 Hadoop 和 Hbase 集群 vs 1 个 Hadoop 集群 + 1 个 Hbase 集群
Hadoop会跑很多jobs，从Hbase读取数据，写数据到数据库。假设我有 100 个节点，那么有两种方法可以构建我的 Hadoop/Hbase集群: 100节点hadoop&hbase集群(1个b
kafka 集群
在kafka中，我们能创建多种类型的集群，一般如下：单节点——单个broker集群单节点——多broker集群多结点——多broker集群 kafka集群中主要有五个组件： Topic：主题主要
不同操作系统的 MPI 集群
我想在两台机器上运行我的 MPI 程序，一台是 ubuntu 18.04，另一台是 Windows 10。是否可以使用不同的操作系统组成一个集群？ (我正在使用 MPICH) 如果可能，怎么做？我在网
RabbitMQ 集群 - 更新负载平衡集群中节点的最佳实践？
简介: 更新负载平衡集群中的节点的最佳实践是什么？我们在 ha 代理负载均衡器后面使用 RabbitMQ 集群来支持我们的客户端轻松集群，as suggested in the RabbitMQ d
与其他节点具有相同等级的 graphviz 集群
我正在尝试创建一个图表，我明确指定了许多节点的等级并指定了集群。以下代码生成我想要的图形类型: digraph { rankdir=LR subgraph cluster0 {
具有三个节点的 Rabbitmq 集群
我正在尝试在 RABBITMQ 上进行集群。我添加了 2 个节点，但无法添加第 3 个节点。我已经聚集了 rabbit@node1 和 rabbit@node2。现在我正在尝试将 rabbit@nod
每个应用程序的 Kubernetes 集群？
我在 MS Azure 的生产环境中启用了一个双集群多区域 HA。我被要求重用同一个集群来使用微服务管理几个新项目。这里的最佳做法是什么？我应该为每个应用程序创建一个集群吗？将不同集群中的每个项目
elasticsearch - Elasticsearch 集群
我正在尝试 flex 搜索，并且很难在具有3个 flex 搜索实例的单台计算机上创建集群。我对实例进行了以下更改: 在所有实例上更改了群集名称{cluster.name:es-stack} 在所有实例
具有自定义集群配置的 Redis 集群
我想创建一个redis集群，仅将特定的redis主机作为主服务器和从服务器。另外，我想自己指定哪个主机应该是哪个主机的副本。目前，cluster-create command当在任何一个 Redis
Magento 集群/负载平衡设置
我计划在具有负载平衡的集群中设置 Magento，那么是否可以让两个 Magento 安装指向同一个数据库？如果可能的话 - 我应该如何配置这些服务器的基本 URL？服务器应该具有相同的名称吗？最
PHP/MySql 集群
我目前正在计划一个 Web 应用程序，我想计划它最终在集群上运行。集群将由一个 php web 集群和一个 mysql 集群以及一个独立的存储单元组成(也许是一个集群，我真的不知道它是如何工作的:s
Elasticsearch 集群 'master_not_discovered_exception'
我已经安装了 elasticsearch 2.2.3 并在 2 个节点的集群中配置节点 1 (elasticsearch.yml) cluster.name: my-cluster node.nam
java - 集群/分布式服务有哪些好的中间件解决方案
我正在寻找现有的中间件解决方案，以解决服务集群/分布方面的问题，以实现负载平衡和可用性。我正在考虑基于消息传递系统(更具体地说，JMS)为此构建自己的基础设施。但是，如果可能的话，我宁愿使用已经存在的
Hadoop 集群。数据在集群数据节点之间自动复制
在 Hadoop 集群中，数据是自动跨数据节点复制还是必须编程？如果必须编程，那我该怎么做呢？最佳答案 dfs.replication 的默认值为 3。这存在于您的 hdfs.site.xml 中
负载均衡器上的 Redis 集群
我已经设置了一个具有 1 个主节点和 2 个从节点的 redis 集群，哨兵在所有 3 个节点上运行。在此设置之前，我的应用程序指向运行 Redis 实例的单个节点。集群搭建完成后，我的应用应该指
redis 集群 - 与集群交互是否需要代理或集群支持库？
所以，我正在设计一个具有多个 redis 实例的分布式系统来分解大量的流式写入，但发现很难清楚地了解事情是如何工作的。从我读到的内容来看，正确配置的集群似乎会自动对“错误实例”上的请求进行分片和重定
负载均衡器后面的 Redis 集群？
我有一个关于redis集群架构的问题。我正在设置一个 Redis 集群，并遵循基本建议:3 硕士3个奴隶有什么方法可以在 Amazon LB、HAProxy、Nginx 等负载均衡器后面配置此集群
傻瓜式 Mysql 集群
那么集群背后的想法是什么？您有多台机器具有相同的数据库副本，您在其中传播读/写？这是正确的吗？这个想法如何运作？当我进行选择查询时，集群会分析哪个服务器的读/写较少并将我的查询指向该服务器？当您
Ubuntu安装部署Kubernetes(k8s)集群
目录一.系统环境二.前言三.Kubernetes 3.1 概述 3.2 Kube

首页

博学

6Ren·AI

商城

hadoop - 如何将 presto 集群集成到 hadoop 集群？