hadoop - 在应用程序执行时更改dfs.block.size-6ren

hadoop - 在应用程序执行时更改dfs.block.size

转载作者：行者123 更新时间：2023-12-02 21:47:25

25

4

由于dfs.block.size是HDFS设置，因此如果我在应用程序执行期间更改它，就不会有所不同，对吗？
例如，如果作业文件的块大小为128，我调用

hadoop jar /path/to/.jar xxx -D dfs.block.size=256

会有所不同吗？还是需要在将文件保存到HDFS之前更改块大小？
dfs.block.size和任务的分割大小直接相关吗？如果即时消息是正确的，但不是正确的，是否有办法指定分割的大小？

最佳答案

Parameters which decides your split Size for each MR can be set by

mapred.max.split.size & mapred.min.split.size

"mapred.max.split.size" which can be set per job individually through your conf Object. Don't change "dfs.block.size" which affects your HDFS too.Which does change your output block size of execution.

if mapred.min.split.size is less than block size and mapred.max.split.size is greater than block size then 1 block is sent to each map task. The block data is split into key value pairs based on the Input Format you use.

关于hadoop - 在应用程序执行时更改dfs.block.size，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23982422/

25

4

0

文章推荐： hadoop - 将新文件加载到DistributedCache

文章推荐： hadoop - Oozie工作流XML错误

文章推荐： java - Zookeeper中的生产者消费者队列

algorithm - DFS in DFS, DFS with a known string
我正在寻找我的代码的复杂度计算。简单来说就是DFS中的DFS(depth first search)。 DFS 从头到尾(向后搜索)在图(状态机)上运行。每当到达开始时，它都会累积使其到达开始的字符串
python - 如何将迭代 DFS 变成递归 DFS？
我通过实现堆栈编写了一个迭代 DFS。现在我试图递归地编写相同的 DFS，但我遇到了问题。我的问题是，当我迭代编写它时，我可以保留某些全局变量，例如 paths=[] 并在找到新路径时添加到其中。
c - dfs 迭代和 dfs 递归的不同输出
此程序用于图的 dfs 遍历，一个函数是迭代方法，另一个函数是递归方法，但两者给出的答案不同从迭代中我得到 01234从递归我得到 02341 谁能解释我为什么？ NOTE -> User is en
algorithm - DFS 递归与 DFS 迭代
这个问题在这里已经有了答案: Iterative DFS vs Recursive DFS and different elements order (4 个答案) 关闭 8 年前。我试图了解 D
azure - 无法为 DFS 复制创建 DFS 命名空间
首先请原谅我的英语这可能不太可能，或者以前没有人经历过这种情况，我真的非常需要帮助。这可能是我第一次在这里提问我正在尝试在 azure 订阅中的两台服务器(LIVE1 和 LIVE2)上设置 dfs
java - 迭代 DFS 比递归 DFS 更快吗？
我以迭代方式和递归方式实现了深度优先搜索算法。它们对于小尺寸(小于 1 MB)的文件都可以正常工作。然而，当我尝试在 50 MB 的文件上运行它们时，递归 DFS(9 秒)似乎比使用迭代方法(至少几分
java - 迭代 DFS 与递归 DFS 中的奇数排序
我正在解决这个 dfs/bfs问题。我编写了 DFS 的迭代版本和递归版本。节点访问的顺序不同，我不明白为什么。迭代 DFS: static void DFS (Integer root, Gr
c++ - 在迭代 DFS 与递归 DFS 中维护当前节点的上下文
我遇到了一个问题，我要在图中寻找一种特殊类型的节点。该算法按以下方式工作: bool findSpecial(Node n) { if(isSpecial(n)) return
c++ - 迭代 DFS 与递归 DFS 和不同的元素顺序
我写了一个递归DFS算法来遍历一个图: void Graph::DFS(Node n) { std::cout void Graph::IterativeDFS(Node n) {
c++ - 如果我在 DFS 方法中生成频繁模式，如何构建 DFS 树？
在我的算法中，我将通过 DFS 方法创建频繁模式，例如，我生成 A-A, A-A-B, A-A-B-C, .. .顺序。(这三种模式为频繁子图模式，A,B,C为节点，- 表示两个节点之间存在一条边。)
哈多普 |架构Linux | DFS : cannot launch start-dfs. sh
我对 hadoop 中的 dfs 有疑问。有人知道如何解决我的问题吗？ [hduser@evghost ~]$ start-dfs.sh Starting namenodes on [evghost]
algorithm - 我们不能在未加权的图中通过 DFS(改进的 DFS)找到最短路径吗？如果不是，那为什么？
据说在未加权的图中不能用DFS求最短路径。我已阅读多篇文章和博客，但并不满意，因为对 DFS 稍加修改就可以实现。我认为如果我们以这种方式使用改进的 DFS，那么我们可以找到距源的最短距离。 Ini
java - Spark GraphX 的 DFS 性能与简单 Java DFS 实现的比较
考虑到一个具有 14,000 个顶点和 14,000 个边的图，我想知道为什么 GraphX 比图的 java 实现花费更多的时间来获取从顶点到叶子的所有路径？ java 实现:几秒钟 Graphx
hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？
我已按照 Apache“单节点设置”说明在单节点上设置 dfs.replication。但是后来我按照“Cluster Setup”进行操作，但它没有提到这个属性，所以我不知道这是要在 Nameno
python - 使用 Pandas 将 dfs 列表从 pd.read_html 转换为 dfs
有没有办法修改 pd.read_html 使其返回数据帧而不是数据帧列表？语境: 我正在尝试使用 pandas read_html 从网站导入表格。我知道 pd.read_html 返回一个 dfs
hadoop - 'hdfs dfs -ls' 和 'hdfs dfs -ls/' 之间的区别
为什么 hdfs dfs -ls 指向与 hdfs dfs -ls/ 不同的位置？从下面的截图中可以清楚地看到两个命令给出不同的输出: 以上输出的主要原因是什么？最佳答案来自官方源码org.ap
linux - 安装和获取当前的 dfs.name.dir 和 dfs.data.dir 值
我没有在 hdfs-site.xml 文件中设置 dfs.name.dir 和 dfs.data.dir 值没有设置。他们会怎样？有趣的是，他们默认接受什么值？ (如何接收他们的当前值？) 最佳答案
hadoop - dfs.namenode.servicerpc-address 或 dfs.namenode.rpc-address 未配置
我试图用一个名称节点和四个数据节点配置 hadoop。我能够在一台机器上成功配置名称节点和作业跟踪器并将其启动。但是在我要配置数据节点的机器上，我做了以下操作: 我将 hadoop-2.0.0-cd
hadoop - 错误配置 : namenode address dfs. namenode.servicerpc-address 或 dfs.namenode.rpc-address 没有配置
我正在尝试在 ec2-instance 上安装 Hadoop-2.6.0。我下载并安装了 Hadoop。我还设置了环境变量。尝试启动 hdfs 服务时出现以下错误。 [ec2-user@ip-10-
java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录
我是 hadoop 框架的新手，目前我正在处理大数据项目，在 Windows 7 中使用 cygwin、hadoop-0.19.1、eclipse-3.3.1 (Europa)。现在我正在尝试从 ha

首页

博学

6Ren·AI

商城

hadoop - 在应用程序执行时更改dfs.block.size