hadoop - hdfs dfs -getmerge 命令有什么作用？-6ren

hadoop - hdfs dfs -getmerge 命令有什么作用？

转载作者：可可西里更新时间：2023-11-01 14:45:44

26

4

作为配置单元查询的结果，我得到了多个输出文件(按排序方式分发)，现在我想合并它们以生成一个文件。所以我尝试了 hdfs dfs -getmerge 命令。现在我想了解 -getmerge 是在连接之前对文件进行排序还是只是连接？

最佳答案

public static boolean More ...copyMerge(FileSystem srcFS, Path srcDir, 
277                                  FileSystem dstFS, Path dstFile, 
278                                  boolean deleteSource,
279                                  Configuration conf, String addString) throws IOException {
280    dstFile = checkDest(srcDir.getName(), dstFS, dstFile, false);
281
282    if (!srcFS.getFileStatus(srcDir).isDirectory())
283      return false;
284   
285    OutputStream out = dstFS.create(dstFile);
286    
287    try {
288      FileStatus contents[] = srcFS.listStatus(srcDir);
289      Arrays.sort(contents);
290      for (int i = 0; i < contents.length; i++) {
291        if (contents[i].isFile()) {
292          InputStream in = srcFS.open(contents[i].getPath());
293          try {
294            IOUtils.copyBytes(in, out, conf, false);
295            if (addString!=null)
296              out.write(addString.getBytes("UTF-8"));
297                
298          } finally {
299            in.close();
300          } 
301        }
302      }
303    } finally {
304      out.close();
305    }
306    
307
308    if (deleteSource) {
309      return srcFS.delete(srcDir, true);
310    } else {
311      return true;
312    }
313  }

它对文件数组进行排序(默认升序)，源hadoop 0.23

关于hadoop - hdfs dfs -getmerge 命令有什么作用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24893613/

26

4

0

文章推荐： hadoop - JVM 重用 MapReduce 2.0 YARN

文章推荐： html - 如何使用angular js获取json中对象内部的对象

文章推荐： hadoop - Hive 加载特定列

algorithm - DFS in DFS, DFS with a known string
我正在寻找我的代码的复杂度计算。简单来说就是DFS中的DFS(depth first search)。 DFS 从头到尾(向后搜索)在图(状态机)上运行。每当到达开始时，它都会累积使其到达开始的字符串
python - 如何将迭代 DFS 变成递归 DFS？
我通过实现堆栈编写了一个迭代 DFS。现在我试图递归地编写相同的 DFS，但我遇到了问题。我的问题是，当我迭代编写它时，我可以保留某些全局变量，例如 paths=[] 并在找到新路径时添加到其中。
c - dfs 迭代和 dfs 递归的不同输出
此程序用于图的 dfs 遍历，一个函数是迭代方法，另一个函数是递归方法，但两者给出的答案不同从迭代中我得到 01234从递归我得到 02341 谁能解释我为什么？ NOTE -> User is en
algorithm - DFS 递归与 DFS 迭代
这个问题在这里已经有了答案: Iterative DFS vs Recursive DFS and different elements order (4 个答案) 关闭 8 年前。我试图了解 D
azure - 无法为 DFS 复制创建 DFS 命名空间
首先请原谅我的英语这可能不太可能，或者以前没有人经历过这种情况，我真的非常需要帮助。这可能是我第一次在这里提问我正在尝试在 azure 订阅中的两台服务器(LIVE1 和 LIVE2)上设置 dfs
java - 迭代 DFS 比递归 DFS 更快吗？
我以迭代方式和递归方式实现了深度优先搜索算法。它们对于小尺寸(小于 1 MB)的文件都可以正常工作。然而，当我尝试在 50 MB 的文件上运行它们时，递归 DFS(9 秒)似乎比使用迭代方法(至少几分
java - 迭代 DFS 与递归 DFS 中的奇数排序
我正在解决这个 dfs/bfs问题。我编写了 DFS 的迭代版本和递归版本。节点访问的顺序不同，我不明白为什么。迭代 DFS: static void DFS (Integer root, Gr
c++ - 在迭代 DFS 与递归 DFS 中维护当前节点的上下文
我遇到了一个问题，我要在图中寻找一种特殊类型的节点。该算法按以下方式工作: bool findSpecial(Node n) { if(isSpecial(n)) return
c++ - 迭代 DFS 与递归 DFS 和不同的元素顺序
我写了一个递归DFS算法来遍历一个图: void Graph::DFS(Node n) { std::cout void Graph::IterativeDFS(Node n) {
c++ - 如果我在 DFS 方法中生成频繁模式，如何构建 DFS 树？
在我的算法中，我将通过 DFS 方法创建频繁模式，例如，我生成 A-A, A-A-B, A-A-B-C, .. .顺序。(这三种模式为频繁子图模式，A,B,C为节点，- 表示两个节点之间存在一条边。)
哈多普 |架构Linux | DFS : cannot launch start-dfs. sh
我对 hadoop 中的 dfs 有疑问。有人知道如何解决我的问题吗？ [hduser@evghost ~]$ start-dfs.sh Starting namenodes on [evghost]
algorithm - 我们不能在未加权的图中通过 DFS(改进的 DFS)找到最短路径吗？如果不是，那为什么？
据说在未加权的图中不能用DFS求最短路径。我已阅读多篇文章和博客，但并不满意，因为对 DFS 稍加修改就可以实现。我认为如果我们以这种方式使用改进的 DFS，那么我们可以找到距源的最短距离。 Ini
java - Spark GraphX 的 DFS 性能与简单 Java DFS 实现的比较
考虑到一个具有 14,000 个顶点和 14,000 个边的图，我想知道为什么 GraphX 比图的 java 实现花费更多的时间来获取从顶点到叶子的所有路径？ java 实现:几秒钟 Graphx
hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？
我已按照 Apache“单节点设置”说明在单节点上设置 dfs.replication。但是后来我按照“Cluster Setup”进行操作，但它没有提到这个属性，所以我不知道这是要在 Nameno
python - 使用 Pandas 将 dfs 列表从 pd.read_html 转换为 dfs
有没有办法修改 pd.read_html 使其返回数据帧而不是数据帧列表？语境: 我正在尝试使用 pandas read_html 从网站导入表格。我知道 pd.read_html 返回一个 dfs
hadoop - 'hdfs dfs -ls' 和 'hdfs dfs -ls/' 之间的区别
为什么 hdfs dfs -ls 指向与 hdfs dfs -ls/ 不同的位置？从下面的截图中可以清楚地看到两个命令给出不同的输出: 以上输出的主要原因是什么？最佳答案来自官方源码org.ap
linux - 安装和获取当前的 dfs.name.dir 和 dfs.data.dir 值
我没有在 hdfs-site.xml 文件中设置 dfs.name.dir 和 dfs.data.dir 值没有设置。他们会怎样？有趣的是，他们默认接受什么值？ (如何接收他们的当前值？) 最佳答案
hadoop - dfs.namenode.servicerpc-address 或 dfs.namenode.rpc-address 未配置
我试图用一个名称节点和四个数据节点配置 hadoop。我能够在一台机器上成功配置名称节点和作业跟踪器并将其启动。但是在我要配置数据节点的机器上，我做了以下操作: 我将 hadoop-2.0.0-cd
hadoop - 错误配置 : namenode address dfs. namenode.servicerpc-address 或 dfs.namenode.rpc-address 没有配置
我正在尝试在 ec2-instance 上安装 Hadoop-2.6.0。我下载并安装了 Hadoop。我还设置了环境变量。尝试启动 hdfs 服务时出现以下错误。 [ec2-user@ip-10-
java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录
我是 hadoop 框架的新手，目前我正在处理大数据项目，在 Windows 7 中使用 cygwin、hadoop-0.19.1、eclipse-3.3.1 (Europa)。现在我正在尝试从 ha

首页

博学

6Ren·AI

商城

hadoop - hdfs dfs -getmerge 命令有什么作用？