presto - Presto 的硬件要求-6ren

presto - Presto 的硬件要求

转载作者：行者123 更新时间：2023-12-04 09:01:01

29

4

我怀疑答案是“视情况而定”，但是否有关于计划用于 Presto 的硬件类型的一般指导?

由于 Presto 使用一个协调器和一组工作器，并且工作器使用数据运行，我想主要问题将是协调器有足够的 RAM，工作器发送到协调器的部分结果有足够的网络带宽等。

如果您可以提供一些关于如何适当调整大小的一般想法，我很乐意听取他们的意见。

最佳答案

大多数人都在运行Trino (formerly PrestoSQL)在他们已经拥有的 Hadoop 节点上。在 Facebook，我们通常在 Hadoop 集群中的几个节点上运行 Presto 以分散网络负载。
通常，我会采用新集群的行业标准比率:每个磁盘 2 个内核和 2-4 GB 内存，如果您负担得起，还可以使用 10 GB 网络。在您拥有几台机器 (4+) 后，使用您对数据的查询进行基准测试。如果您需要调整比率，这应该是显而易见的。
在从头开始为集群确定硬件大小时，需要考虑以下几点:

总数据大小将决定您需要的磁盘数量。 HDFS 的开销很大，因此您将需要大量磁盘。

CPU 速度与磁盘的比率取决于热数据(您正在处理的数据)和冷数据(存档数据)之间的比率。如果您刚刚启动您的数据仓库，您将需要大量 CPU，因为所有数据都是新的和热的。另一方面，大多数物理磁盘只能以如此快的速度传输数据，因此在某些时候更多的 CPU 无济于事。

CPU 速度与内存的比率取决于要执行的聚合和连接的大小以及要缓存的(热)数据量。目前，Presto 需要最终聚合结果和用于连接的哈希表以适合单个机器上的内存(我们正在积极致力于消除这些限制)。如果您有大量内存，操作系统将缓存磁盘页面，这将显着提高查询性能。

2013 年，我们在 Facebook 运行我们的 Presto 流程如下:

我们使用 16 GB 堆运行我们的 JVM，以将大部分内存留给操作系统缓冲区

在我们运行 Presto 的机器上，我们没有运行 MapReduce 任务。

大多数 Presto 机器有 16 个真正的内核，并使用处理器关联(最终是 cgroups)将 Presto 限制为 12 个内核(因此 Hadoop 数据节点进程和其他东西可以轻松运行)。

大多数服务器都在 10 Gb 网络上，但我们确实有一个使用 1 Gb 的大型旧集群(工作正常)。

我们对协调器和工作器使用了相同的配置。

最近，我们运行了以下内容:

这些机器有 256 GB 的内存，我们运行了 200 GB 的 Java 堆

大多数机器有 24-32 个真实内核，而 Presto 被分配了所有内核。

这些机器只有最小的本地日志存储，所有表数据都是远程的(在一个专有的分布式文件系统中)。

大多数服务器都有一个到光纤网络的 25 Gb 网络连接。

协调器和工作器具有相似的配置。

关于presto - Presto 的硬件要求，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19863857/

29

4

0

文章推荐： actions-on-google - dialogflow v2 api 中的 app.setContext()？

文章推荐： memory-management - 我不明白内存寻址中的某些东西

当我传递 2 个参数时，Python 要求 3 个参数；当我传递 3 个参数时，Python 要求 2 个参数
我有一个类和构造函数，如下所示: def init(log, edge): if edge: return Helper(log, edge) return Booka
Tensorflow 要求
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
mongodb安装 - 要求？
有人知道在 mongo 上安装标准 ubuntu 需要多少磁盘空间和内存吗？试图找出我的 VPS 需求... 最佳答案没有最低要求，但我不建议在与您的网络服务器相同的机器上运行 Mongo。 Mon
输出全局包的 Pip 要求
我的 Django 项目有一个虚拟环境，但是当我 pip 击 pip freeze 时，我得到了一个必须是全局站 pip 包列表的东西，包括太多包，比如ubuntu包和这么多不相关的东西。无论 vir
python - Heroku 要求
我曾尝试在 Heroku 上部署我的应用程序，但 smth 出错了。错误:找不到满足要求的版本 get==2019.4.13(来自 -r/tmp/build_53ad6d03_/requiremen
javascript - 要求/导入语句不起作用
我无法将 semantic-ui-calendar npm 模块加载到我的应用程序中。我已经使用脚本标签成功地将它加载到我的 HTML 中，但每次我尝试将它加载到我的应用程序中时，我都会出错。在
javascript - 要求 - 没有这样的文件或目录
如何修复 php.ini 中“require”函数内的地址？它进行故障排除并显示错误: 警告:require (..) 无法打开流:没有这样的文件或目录。文件“db_connection.php”工
javascript - 要求/导入已经在继承链的更高位置导入的类是错误的吗？
我有一个在 Node.js 应用程序中使用的外部库 ( Objection.js )。我创建了一个基本模型类，它为我的实体模型扩展了 Objection 的 Model 类: const { Mode
Android 要求 GLIBC
有谁知道在哪里可以找到RHEL5的GLIBC2.7，如果没有这个，Android模拟器将无法启动。它会给出一条消息，要求GLIBC 2.7或更高版本。我尝试在网上搜索，但没有找到最佳答案我也遇到
Android 设备指南/要求
Android 设备是否有任何要求/指南？例如按钮数量或所需的最少按钮数量。还有没有菜单和后退按钮的安卓设备吗？ (我知道就可用性而言，没有菜单/后退按钮会杀死大多数应用程序，我只是想了解更多有关该
php - 要求/包含到变量中
我想要求/包含一个文件并将其内容检索到一个变量中。 test.php index.php ".$test; ?> 类似于 file_get_contents() 但它仍应执行 PHP 代码。这可能吗
php - 要求/包含到变量中
我想要求/包含一个文件并将其内容检索到一个变量中。 test.php index.php ".$test; ?> 类似于 file_get_contents() 但它仍应执行 PHP 代码。这可能吗
python - 使用替代模块满足 pip 要求
我正在尝试在我的 Linux Mint 发行版上安装一个 python 模块“pyAudioProcessing”(https://github.com/jsingh811/pyAudioProces
php - 创建条件 Composer 要求
我已经创建了我的第一个 composer 包，它具有 MySQL 和 MongoDB 的功能，但是，它不需要两者。我意识到有人可能只想将这个包与两个数据库之一一起使用，目前我有: "require":
r - 要求 R 调试器不要截断堆栈调用
我想调试以下函数，但假设在调试器中查看 moreajaj 的参数等于什么(假设不像在这个人为的示例中那么明显)是有用的。我可以在调试器框架中打印它，但是在每个参数的每个框架中都这样做很烦人。在宣布每一
makefile - 要求 makefile 打印变量值
我有一些生成的 GNUmakefiles，我需要从中提取变量的值。有没有一种简单的方法可以在不修改 makefile 的情况下查看变量的值？仅供引用，变量包含 emacs c-macro-expa
ubuntu - 要求 aspell 跳过部分文档
我正在使用 aspell 在 Linux 上拼写检查 LaTeX 文档。我的文档经常包含各种编程语言的代码示例，我希望 aspell 在拼写检查时简单地跳过这些行。我可以在文档中写些什么来关闭一段文
sql - 奇怪的 ORDER BY 要求
我有一个包含多个列的数据集... 一列是具有重复值的主石斑鱼列，另一列是具有 bool 值 (1,0) 的 NUMBER，如下所示: grp bool --- ---- A 1 A 1 A
requirejs - 要求 js 删除定义以强制重新加载
出于测试目的，我正在尝试删除一些 amd 模块并从服务器重新加载更新版本 - 目的是不刷新浏览器。我目前正在执行以下操作，但浏览器仍然没有从网络重新加载项目。 var scripts = docum
ruby-on-rails - 要求 'rubygems'不起作用
当我键入irb> require 'rubygems'时，它返回false。我的Rails应用程序中有很多 gem ，这些 gem 显然可以正常工作-耙子，activerecord等。这里可能出什么问

首页

博学

6Ren·AI

商城

presto - Presto 的硬件要求