Hadoop HDFS - 保留许多部分文件或 concat？-6ren

Hadoop HDFS - 保留许多部分文件或 concat？

转载作者：可可西里更新时间：2023-11-01 14:54:41

31

4

在 Hadoop 中运行 map-reduce 作业后，结果是一个包含部分文件的目录。 part 文件的数量取决于 reducer 的数量，可以达到几十个(在我的例子中是 80 个)。

保留多个部分文件是否会影响 future map-reduce 操作的性能，是好是坏？采取额外的缩减步骤并合并所有部分会提高还是降低进一步处理的速度？

请仅引用 map-reduce 性能问题。我不关心以任何其他方式拆分或合并这些结果。

最佳答案

在零件目录上运行进一步的 mapreduce 操作应该对整体性能几乎没有影响。

原因是Hadoop做的第一步是根据大小拆分输入目录中的数据，并将拆分后的数据放到Mappers上。由于它已经将数据拆分为单独的 block ，拆分一个文件与多个文件应该不会影响性能，通过网络传输的数据量应该大致相等，处理量和磁盘时间也应该相等。

可能会有一些退化的情况，零件文件会变慢。例如，您拥有数千/数百万个零件文件，而不是 1 个大文件。我还可以想到拥有多个零件文件会更快的情况。例如，如果您没有可拆分文件(除非您使用某些压缩方案，否则通常不会出现这种情况)，那么您必须将您的 1 个大文件放在一个映射器上，因为它不可拆分，其中许多部分文件将是或多或少地正常分布。

关于Hadoop HDFS - 保留许多部分文件或 concat？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16504626/

31

4

0

文章推荐： javascript - 使用 HTML5 JS 框架进行本地存储？

文章推荐： jquery - 提交表单时进行多次 ajax 调用

mysql - CONCAT() 结果包含 CONCAT()
数据库设置: http://sqlfiddle.com/#!2/4d1c2/1 以下查询选择属于productID的所有标签及其位置，逗号分隔: SELECT CONCAT_WS(',', GROUP
concat - 使用 grunt concat，我如何自动将同一文件连接到许多其他文件？
要连接两个文件，它看起来像这样: concat: { src: ['common.js','js/app.js'], dest: 'assets/js/app.js' } 如果
concat - Kettle PDI Concat 列值
我有一个执行 SQL 脚本的 PDI(Kettle)转换，脚本的输出是一列，如下所示: val1 val2 val3 val4 "more values"... 我需要像这样在一个 Excel 单元格
sql - 存储过程在 CONCAT 语句中包含参数后立即使用 CONCAT 函数截断变量
我正在尝试传递一个参数 [例如@X nvarchar(MAX)] 转换成变量 [例如@message nvarchar(MAX)] 在存储过程中。该变量使用 CONCAT 组合字符串值和变量，它最终成
php - mysql concat 和 de-concat
我不知道如何解释我的问题... 这是我的sql请求: SELECT DISTINCT CONCAT (nompropre, ' ', Auteur, ' de ', localite) AS aute
mysql - 来自与另一个表连接的表的 concat 和 group concat
如何在与另一个表连接的表中使用 concat 和 group concat。架构如下所示: 第一表: MariaDB [ittresnamuda]> select * from tb_tipe_req
MySQL:选择字符串的 Concat 和结果 Concat 的长度
在我的 CREATE VIEW 中，我想: SELECT CONCAT( t.str1, t.str2 ) AS Title, CHAR_LENGTH( Title ) AS Length 但这会产生
java - JPA CriterialBuilder.concat 强制使用 concat 函数
我正在使用 CriteriaBuilder.concat 连接 2 个字符串，代码如下: Expression concat = criteriaBuilder.concat(expr1, expr2
c# - IEnumerable Concat Missing，不包含 'Concat' 的定义
我有以下继承 IEnumerable 的类 public class LinesEnumerable : IEnumerable { protected readonly IPointSeri
javascript - _.concat lodash vs Array.prototype.concat()
_.concat 和有什么区别lodash 和 Array.prototype.concat() ?. 最佳答案欢迎来到 Stackoverflow! 这些函数的工作方式相同，但语法不同: _.co
mysql - 使用 CONCAT/GROUP CONCAT 合并 mysql 中的多行
我有一个非常大的表(几百万条记录)。表中的列 A 目前是这样的:id、道路名称、纬度、经度，其中 id 是自动增量 PK。目前，1 个道路名称可以在表中包含多个条目，因为每条道路都映射到多个(纬度、
javascript - 为什么 [].concat() 比 Array.prototype.concat() 快？
我测试了各种数组连接技术，并不是因为它实际上对我的代码很重要，而只是顺便说一句，看看我们现在在哪里。正如预期的那样，非常新的 ES 2015 传播运算符在 JavaScript 数组上被旧的 conc
javascript - async.concat() 之后的 Node.js concat 数组
我有一个数组，我需要使用一些编辑重新编译。我是在 async.concat() 的帮助下完成的，但有些东西不起作用。告诉我，哪里错了？ async.concat(dialogs, function(d
javascript - arr1.concat(arr2) 和 [].concat(arr1, arr2) 之间的区别
在 JavaScript 中，我遇到过以两种主要方式编写的代码，用于连接两个(或更多)使用 .concat() 的数组。 Array 上的方法目的。 (假设在下文中，arr1 和 arr2 是作为 .
mysql concat 数据如果为 null 则结束，如果不为 null 则继续 concat
我之前曾使用 stack over flow 来解决我的 sql 问题并且成功了。这一次我的下一期可能不会那么成功。我有一个名为 Statements_1 的表，该表大约有 50 列，假设有 10
mysql - count 的 concat 和 group concat 以及 order by
我在想以一种相当奇怪的方式从数据库获取东西时遇到了一些麻烦。假设我有下一张 table ID | Rating 229 | 3 229 | 2 229 | 4 229 | 2 2
Mysql - 如何避免 group by 但仍然使用 concat 和 group concat 我需要组合多个列和行结果
我有类似表中的内容 mysql> select uuid , short-uuid FROM sampleUUID WHERE identifier ="test123"; +------------
mysql - 当 LEFT JOINing 两个不同的表时，GROUP CONCAT concats 太多重复值
我有一个查询，用于获取我离开加入两个表的帖子: 类别和标签:LEFT JOIN 到链接表→‖INNER JOIN 到类别和标签名称表。 LEFT JOIN wp_term_relationships
javascript - 处理 prod 中的 concat 和 dev 中的非 concat
我目前正在开发一个大型 angular.js 项目。我使用 grunt 将所有文件合并/丑化为一个大的 target.js 文件，然后将其包含在索引页中。我已经意识到，这使得在开发环境中调试变得非常
mysql - 在 MySQL 中将 concat 与 as inside concat 函数一起使用
我的表中有三列:firstName、lastName 和 jobTitle。我想将 firstName 和 lastName 连接为 Fullname，然后连接 Fullname 和 jobTitle

首页

博学

6Ren·AI

商城

Hadoop HDFS - 保留许多部分文件或 concat？