hadoop - MapReduce shuffle 阶段瓶颈-6ren

hadoop - MapReduce shuffle 阶段瓶颈

转载作者：可可西里更新时间：2023-11-01 16:30:02

26

4

我正在阅读原始的 MapReduce 论文。我的理解是，当处理数百 GB 的数据时，传输如此多数据的网络带宽可能成为 MapReduce 作业的瓶颈。对于 map 任务，我们可以通过在已经包含任何给定拆分数据的 worker 上安排 map 任务来减少网络带宽，因为从本地磁盘读取不需要网络带宽。

然而，shuffle 阶段似乎是一个巨大的瓶颈。 reduce 任务可能会从所有 map 任务接收中间键/值对，并且几乎所有这些中间键/值对都将通过网络流式传输。

当处理数百 GB 或更多的数据时，有必要使用组合器来实现高效的 MapReduce 作业吗？

最佳答案

如果 Combiner 可以适应这种情况，它会发挥重要作用，它就像一个本地 reducer，因此它不会发送所有数据，而是只发送少量值或本地聚合值，但不能在所有情况下应用组合器。

如果 reduce 函数既是交换函数又是结合函数，那么它可以用作 Combiner。

就像 Median 的情况一样，它不会起作用。

Combiner 并非适用于所有情况。

还有其他可以调整的参数，例如:

当 map 发出输出时，它不会直接进入磁盘，而是进入 100 MB 的循环缓冲区，当填充到 80% 时，它会将记录溢出到磁盘中。

因此您可以增加缓冲区大小并增加阈值保持值，在这种情况下溢出会更少。

如果溢出太多，那么溢出将合并为一个文件，我们可以使用溢出因子进行播放。

有很多线程将数据从本地磁盘复制到 reducer jvm，因此可以增加它们的数量。

压缩可用于中间层和最终层。

所以Combiner不是唯一的解决方案，不会在所有情况下都使用。

关于hadoop - MapReduce shuffle 阶段瓶颈，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38208974/

26

4

0

文章推荐： c++ - winapi 函数的函数指针 (stdcall/cdecl)

文章推荐： angularjs - Angular 的用户名和密码认证

文章推荐： c++ - C++可以从DLL中导出类吗

MySQL 瓶颈
我有一个具有以下结构的表: ID, SourceID, EventId, Starttime, Stoptime 所有 ID 列都是 char(36)，时间是日期。问题是查询表真的很慢。我有 7 百
.net - WCF服务路由，瓶颈？
我们的应用程序服务器架构经过设置，以便每个服务调用都经过自定义构建的 WCF 服务路由器 - 这是一个使用请求消息 header 中嵌入的信息将传入请求分发到适当服务的服务。我们在使用此 WCF 服
Java:ArrayList 瓶颈
在分析一个计算数千个元素的层次聚类的 Java 应用程序时，我意识到 ArrayList.get占用执行集群化部分所需 CPU 的一半左右。该算法搜索两个更相似的元素(因此它是 O(n*(n+1)/
arrays - MatLab 瓶颈
我正在处理大数组(~6x40 百万)，我的代码显示出很大的瓶颈。我在 MatLab 编程经验丰富，但对内部过程(如内存等......)知之甚少。我的代码如下(只是要点，当然所有变量都初始化了，特别是
c# - TcpClient 瓶颈
我正在尝试创建一个独立的类来维护与服务器的 Tcp 连接。我正在使用以下类变量: TcpClient tcpClient; NetworkStream networkStream; BinaryRe
c# - 多线程访问内存中的大型字典对象 - 瓶颈？
快速多线程问题... 我在内存中有一个包含大约 20,000 个项目的字典对象。如果我有多个线程尝试读取此对象，您会认为这会造成瓶颈吗？净 3.5 。字典对象将是只读的字典是只读的，所以我不关心读
javascript - Node 代理服务器，瓶颈？
我们有 2 台服务器: 文件 API 核心 API 不同服务器上的文件 API 和不同的核心 API。我们希望通过相同的域和端口进行访问，我们使用 nodeJS 作为后端平台。所以我们想出了一个代理
azure - 并行运行 Azcopy - 瓶颈？
我想并行下载/上传文件到 Azure。默认情况下，由于日志文件上的锁定，AzCopy 不允许在同一副本上多次运行。我通过将每个实例指向不同的日志文件(使用/Z )在同一台计算机上运行多个 Azcopy
performance - iTextSharp PDFWriter 瓶颈
因此，我将获取 10000 个 2 页 pdf 文件，并使用 iTextSharp 将它们合并为一个。这是我正在做的一些松散代码: Document document = new Document(
java - 使用多线程写入多个文件时如何解决 I/O 瓶颈
我目前有一个多线程程序，可以抓取网站并将其文本写入文件。 CPU 方面，我可以同时运行大量线程，但 I/O 很快就会成为瓶颈。我想我可以让每个线程写入数组阻塞队列，但我知道我将生成超过可用 32GB
c# - 了解树搜索中的 PLINQ 瓶颈
我在使用 PLINQ 时遇到了一些我似乎无法解释的奇怪结果。我一直在尝试并行化 Alpha Beta 树搜索以加快搜索过程，但它实际上减慢了搜索速度。我希望当我提高并行度时，我会每秒线性增加节点...
Python 瓶颈 argpartsort 性能
在对给定数组中的前 n = 1000 个元素进行排序时，为什么 bottleneck.argpartsort 具有最佳性能是否有原因(考虑到我没有搞砸某些事情)？我创建了以下脚本: d = nump
c++ - 如何剖析 OpenMP 瓶颈
我有一个已由 OpenMP 并行化的循环，但由于任务的性质，有 4 个 critical 子句。分析加速并找出哪些关键子句(或可能非关键(!))在循环内占用最多时间的最佳方法是什么？我使用 Ubu
ios - 如何找到 UIImage 瓶颈
我有一个使用 UIImage 对象的应用程序。到目前为止，我一直在使用像这样初始化的图像对象: UIImage *image = [UIImage imageNamed:imageName]; 在我的
mysql - 如何衡量 mySQL 瓶颈？
对于以下问题场景，我们应该查看哪些 mySQL 服务器变量以及哪些阈值很重要: CPU 限制磁盘读取限制磁盘写入绑定(bind) 对于每种情况，除了获得更好的硬件或将数据库扩展到多台服务器之外，建
vba - 识别 VBA UDF 瓶颈
在我的工作表中，我有四个不同的类别。对于每个类别，有 3~5种不同的价格。还有其他属性。结果，每个类别都重复了很多次，总共有 30,000 行。工作表的第一行包含所有列名。每个类别跨越连续的行。因此，
r - createDataFrame 中的 SparkR 瓶颈？
我是 Spark、SparkR 以及所有 HDFS 相关技术的新手。我最近安装了 Spark 1.5.0 并使用 SparkR 运行一些简单的代码: Sys.setenv(SPARK_HOME="/p
solrnet - solr.Add(doc) 瓶颈
Win 7/SolrNet 0.4.0/C# winforms .net 4.0 客户端。我正在使用 Solrnet 和一个 winforms 线程应用程序将多个位图和一些数学描述符写入 Solr
java - Android - 位置管理器 requestLocationUpdates 瓶颈
我有一个 Android 后台服务，它会不时报告位置。当我通过 wifi 在本地测试时它工作得很好，但是当在 3G 连接中测试时(有时在 Edge 上)我发现应用程序显然进入了瓶颈并且不执行 onLo
javascript - angular.js $apply 瓶颈
我正在使用实时数据在网页上使用 SVG 绘制一些线条。为了管理数据，我使用 Angular.js 并管理可视化，我使用 D3.js。我设置了一个 Angular Controller 来保存数据(行

首页

博学

6Ren·AI

商城

hadoop - MapReduce shuffle 阶段瓶颈