gpt4 book ai didi

hadoop - Apache Tez 架构说明

转载 作者:可可西里 更新时间:2023-11-01 14:13:15 25 4
gpt4 key购买 nike

我想看看是什么让 Apache Tez 和 Hive 比 map reduce 和 hive 快得多。我无法理解 DAG 概念。
对于理解 Apache TEZ 的架构,任何人都有很好的引用。

最佳答案

Hadoop 峰会的演讲(幻灯片 35)讨论了 DAG 方法与 MapReduce 范式相比如何优化:

http://www.slideshare.net/Hadoop_Summit/murhty-saha-june26255pmroom212

本质上,它将允许更高级别的工具(如 Hive 和 Pig)在作业开始之前定义它们的整体处理步骤(又名工作流,又名有向非循环图)。 DAG 是完成作业( hive 查询、Pig 作业等)所需的所有步骤的图表。因为可以在执行时间之前计算整个作业的步骤,所以系统可以利用“在内存中”缓存中间作业结果。而在 MapReduce 中,MapReduce 阶段之间的所有中间数据都需要写入 HDFS(磁盘),从而增加了延迟。

YARN 还允许为 Tez 任务重用容器。例如。每个服务器都被分成多个“容器”,而不是“映射”或“减少”插槽。对于作业执行中的任何给定点,这允许 Tez 根据需要将整个集群用于 map 阶段或 reduce 阶段。而在 YARN 之前的 Hadoop v1 中,map slots(和 reduce slots)的数量在平台级别是固定的/硬编码的。更好地利用所有可用集群资源通常会导致更快

关于hadoop - Apache Tez 架构说明,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25521363/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com