hadoop - 我该如何在CDH4.7中编辑InputSplit大小？默认情况下，它是64 MB，但是我想提到它为1 MB-6ren

hadoop - 我该如何在CDH4.7中编辑InputSplit大小？默认情况下，它是64 MB，但是我想提到它为1 MB

转载作者：行者123 更新时间：2023-12-02 22:04:59

32

4

我如何以及在何处可以编辑CDH4.7中的输入拆分大小，默认情况下为64 MB，但我想将其称为1MB，因为我的MR作业运行缓慢并且我想提高MR作业的速度。我想需要编辑cor-site属性IO.file.buffer.size，但CDH4.7不允许我进行编辑，因为它是只读的。
只是在回答我的问题下面重复问题
我如何以及在何处可以编辑CDH4.7中的输入拆分大小，默认情况下为64 MB，但我想将其称为1MB，因为我的MR作业运行缓慢并且我想提高MR作业的速度。我想需要编辑cor-site属性IO.file.buffer.size，但CDH4.7不允许我进行编辑，因为它是只读的。

最佳答案

可以针对每个作业单独设置参数“mapred.max.split.size”。

您无需更改“dfs.block.size”，因为Hadoop处理少量大文件比处理大量小文件更好。这样做的一个原因是FileInputFormat以这样的方式生成拆分:每个拆分都是单个文件的全部或一部分。如果文件非常小(“小”意味着比HDFS块小得多)并且有很多，那么每个映射任务将处理很少的输入，并且会有很多(每个文件一个)，每一项都增加了额外的簿记费用。比较一个分为16个64mb块的1gb文件和10.000左右的100kb文件。 10.000个文件每个都使用一个映射，其工作时间可能比具有单个输入文件和16个映射任务的等效文件慢数十倍或数百倍。

您可以在命令行中使用-D mapred.max.split.size=..在命令中直接更改它，而不必永久更改任何文件。

关于hadoop - 我该如何在CDH4.7中编辑InputSplit大小？默认情况下，它是64 MB，但是我想提到它为1 MB，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27623540/

32

4

0

文章推荐： hadoop - 如何使用hbase将apache phoenix安装到ambari 1.7？

文章推荐： java - 为什么我不能连接到我的 hive 数据库？

文章推荐： java - PIG将关系拆分为n个元素的组

hadoop - cdh 包是如何定义的？
我对 cdh 及其维护方式有疑问: 当我转到与特定 cdh 版本相关的包装信息时，我可以检查每个组件的包装版本(例如 cdh 5.5.5 : https://www.cloudera.com/docu
hadoop - CDH HDFS节点退役永无止境
我们有一个 12 台服务器的 hadoop 集群 (CDH)，最近，我们想停用其中的三台，但是这个进程已经在那里运行了 2 天多了。但它永远不会结束，特别是在过去的 24 小时内，我看到三个数据节点上
hadoop - CDH 组件版本号
我安装了一个 CDH 集群并使用了 hadoop 版本，但它只返回了 Hadoop 版本。有没有办法在图形界面上获取所有已安装组件的版本号？例如，哪个命令可以获取 Spark 版本号？最佳答案打
hadoop - 集群 CDH 安装在下载时卡住
我正在尝试使用 Cloudera Manager 在云服务器上的 3 个节点上设置集群。但在集群安装步骤，它卡在 64%。请指导我如何继续它以及在哪里查看相同的日志。以下是安装屏幕的图像最佳答案
cloudera-cdh - impala 对数组和映射的支持
我使用的是 cdh 5.5.1 中的 impala 2.3 据我了解，这个版本应该支持数组和 map 。我有一个包含数组字段的表(请参见下文) 当我尝试使用 CLI 获取此字段时，我得到:选择列表中
hadoop - Cloudera CDH 演示
Datastax DSE 带有组织良好的 demos . Cloudera CDH5 是否提供类似的东西？最佳答案看看 Cloudera Quickstart VM .它(特别是 Hue)包含一些
macos - Cloudera CDH Mac
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的类(class)。类(class)的当前设置涉及使用带有 VirtualBox 的虚拟机。我只是想知道是否有更快、更有效的程序实
hadoop - CDH 5.1主机IP地址变更
我有一个包含 3 个节点的 CDH 5.1 集群。我们使用cloudera manager自动安装来安装它。在我们将盒子移动到不同的网络并更改 IP 地址之前，它一直运行良好。我尝试了以下步骤 1.
cloudera-cdh - 确保 Impala 查询得到具体化
是否有任何可靠且有效的方法来确保 impala 查询结果得到完全具体化，而无需将结果打印到控制台？作为示例，我将使用 INNER JOIN 查询。具体化查询结果的明显方法是创建表作为选择。 CREA
cloudera - 哪个发行版 CDH 与 HDP
我碰巧在 CDH 工作了很长时间(大约 1 年)，并计划重新开始。现在我们有 CDH、HDP 和 Hortonwork 被 Cloudera 收购。 HDP 是否正在积极开发中？还是CDH正在积极开发
cloudera-cdh - 从可移植二进制文件运行 impala 集群
我正在评估多个大数据工具。其中之一当然是Impala。我想通过在集群节点上手动启动进程来启动 Impala 集群。正如我目前为 Spark、H2O、Presto 和 Dask 所做的那样，我想获取二
hadoop - CDH 4.2.0和Ganglia兼容性
我正在使用CDH 4.2.0群集。为了监视群集，我计划安装Ganglia。我发现link表示Ganglia 3.1与hadoop 0.21.0不兼容。有人可以指导我，哪个版本的Ganglia与CDH
python - Cloudera CDH 5群集的mrjob NoFIleFound异常
尝试在hadoop群集上运行mrjob示例时出现此错误。我已经设置了hadoop_home，还可以在hdfs文件系统上创建一个新目录。如果使用hadoop流，则可以运行python map-red
hadoop - 使用命令行(CDH 5)启动Hadoop服务
我知道如何使用Cloudera Manager界面启动服务，但是我更想知道幕后真正发生的事情，而不是依靠“魔术”。我读过this page，但未提供所需信息我知道有一些.sh文件可以使用，但是它们
hadoop - EC2 上的 Cloudera CDH
我是 aws 新手，我正在尝试通过 Cloudera 的 AMI 在 EC2 上运行 Hadoop。我安装了 AMI，下载了 cloudera-haddop-for-ec2-tools，现在我正在尝试
hadoop - Cloudera Manager 有什么替代方案吗？ (CDH)
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。去年关闭。 Improve this
hadoop - 如何为 hadoop 设置服务器？ (CDH)
我正在使用 AWS EC2 运行 3 个实例(m1.small -- 20GB 硬盘和 1.7GB 内存)。集群上会有hadoop、mapReduce和几个监控进程。我是这样拆分的: 1个主服务器
hadoop - CDH 网络接口(interface)速度抑制
我在 myCentOS 7.1 上配置了 CDH 5.5.2。除了以下与网络相关的警告外，一切都运行良好网络接口(interface)速度抑制... 以下网络接口(interface)似乎未全速运行
hbase - CDH Hue 和 Hbase 身份验证
我是 CDH 新手(我使用的当前版本是 5.7.1) 我已经添加了 HBase thrift 角色并在 Hue 中设置，但我仍然遇到以下问题。 HBase Browser Failed to au
ubuntu - Ubuntu 17上的Cloudera CDH 5.x
可以在Ubuntu 17上安装CDH 5.x吗？根据Cloudera网站的说法，他们一直支持到Ubuntu 16。我不熟悉大数据，所以请原谅我的无知。最佳答案 CDH是Cloudera的发行版，包

首页

博学

6Ren·AI

商城

hadoop - 我该如何在CDH4.7中编辑InputSplit大小？默认情况下，它是64 MB，但是我想提到它为1 MB