java - 如何在HADOOP中处理多个文件夹-6ren

java - 如何在HADOOP中处理多个文件夹

转载作者：行者123 更新时间：2023-12-01 13:37:12

26

4

我遇到以下问题。我有 200k xml 文件。我有 200 个文件夹，每个文件夹有 2000 个 xml 文件。我的 HDFS 中有这个。架构如下

RootFolder 
   Folder001
       1.xml
       2.xml
       2000.xml
   Folder002
       2001.xml

我需要编写一个映射程序来读取文件并执行一些 Xpath 过程。

如果我给出RootFolder输入路径，那么映射器应该读取文件夹并处理xml文件

那就是应该有200个Task。每个文件夹应该由一个映射器读取

如何处理多个文件夹？

最佳答案

据我了解，您有两个问题:

1:需要通过单个映射任务映射子文件夹中的所有文件:

Ans:对于这种情况，您可以使用CombineFileInputFormat。它将针对指定的 PathFilter 对文件进行分组(在您的情况下，过滤器应该接受同一文件夹的文件)并将其分配给单个映射任务。即可以实现每个文件夹的maptask。为了获得更好的控制，请扩展 CombineFileInputFormat 并将其设为您自己的，这就是我在我的例子中所做的。

2:需要通过仅指定根文件夹来包含子文件夹内的文件作为 map task 的输入。

Ans:在新的 API 版本中，FileInputFormat 可以从其子文件夹递归获取文件，直至任何级别。更多信息可以查看jira here 。

或者，如果您想自己执行此操作，请子类化 FileInputFormat 并重写 listStatus 方法。

关于java - 如何在HADOOP中处理多个文件夹，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21178033/

26

4

0

文章推荐： java - Java 平台企业版 (JSP) 上的 JOptionPane.showMessageDialog

文章推荐： java - 在启动生命周期中优雅地退出 quarkus

文章推荐： java - 正则表达式拆分除指定子字符串以外的字符串

文章推荐： java - 使用客户端在 EJB 中使用有状态 bean

netbeans - NetBeans 6.8添加了“添加JAR/文件夹”文件夹，但该软件包不存在
我在使用NetBeans 6.8时遇到以下问题。我通过项目属性->库->编译选项卡->添加JAR /文件夹添加带有jar的文件夹。在下一个窗口中，我选择文件夹，然后选择“复制到库文件夹”。但是，我仍然
url-rewriting - Web.config 将一个域重定向到非 https 文件夹，将另一个域重定向到 https 文件夹
我的网站有一个域别名。我想知道如何将 domainA.ext 的请求重定向到 https://domainA.ext/folderA和对 domainB.ext 的请求到 http://domainB
Android 创建自定义菜单(和自定义 res/menu 文件夹，没有 res/menu 文件夹)
我应该在 Eclipse 中构建的 Android 项目中创建自己的自定义菜单文件夹吗？例如，我想创建一种出现在所有 Activity 中的标题。我知道菜单应该在 res/menu 文件夹中的 XML
asp.net-mvc - 如何设置或指定 ASP.NET MVC 使用的 Controllers 文件夹，而不是默认的 Controllers 文件夹？
我正在使用 VS2008 和 .net 3.5。我在我的解决方案中创建了一个类库(Myproject.Controllers)。在这个类下，我添加了一个 Controllers 文件夹。在文件夹中我添
visual-studio-2012 - 如何在 VS2012 构建后步骤中获取 Visual Studio 2012 AddIns 文件夹(或当前用户的 "Documents"文件夹)？
我有一个包含生成后步骤的 Visual Studio 2012 扩展项目，我想在其中将 .dll 和 .AddIn 文件复制到当前用户的 Visual Studio 2012 AddIns 文件夹中。
Bash脚本根据文件大小更改 move 文件夹？
我在专有的 linux 发行版中有一些自动下载。他们去临时暂存盘。我想在它们完成后将它们 move 到主 RAID 阵列。我能看到的最好方法是检查磁盘上的文件夹，看看内容是否在最后一分钟发生了变化。
svn - 合并时忽略文件/文件夹
我目前正在使用 SVN 对我的软件项目进行版本控制。在一个正在进行的项目中，我有主干，用于客户的共同功能和规范以及分支，用于客户特定的。有没有办法在每次执行此类操作时标记一些不应合并到分支中的文
shell - 如何排除要删除的文件/文件夹
这个问题在这里已经有了答案: How to exclude a directory in find . command (45 个回答) 8 年前关闭。如何删除文件夹中的所有内容并排除特定文件夹和文
java - 创建文件/文件夹
如何在特定目录中创建具有当前日期和时间的文件夹或文件？ DateTimeFormatter f = DateTimeFormatter.ofPattern("uuuuMMdd HHmmss") ; L
sublimetext3 - 如何在系统文件资源管理器中打开文件/文件夹？
有没有办法在系统文件资源管理器的左侧“文件夹”栏中打开文件或文件夹？如果没有这个，我必须打开文件资源管理器并一直导航到该文件夹所在的位置才能操作文件，这确实很不方便。对于大多数带有这样导航栏的工具
去获取不下载到 SRC 文件夹
预期:我使用 go get 安装包，它在 src 文件夹中创建了所有必要的文件夹，但它们只出现在 pkg/mod 文件夹中，我不能使用它们。现实:它说它正在下载，完成，然后什么都没有。一切都在 W
PowerShell:从压缩文件中提取特定文件/文件夹
说 foo.zip包含: a b c |- c1.exe |- c2.dll |- c3.dll 哪里a, b, c是文件夹。如果我 Expand-Archive .\foo.zip -Destin
magento var 文件夹
不久前我正在删除 var 文件夹中 Magento 的缓存。我可能是错的，但我认为我犯了一个错误，而不是删除 var/cache 中的所有内容，而是意外删除了 var 中的所有内容。 Magento
svn - 通过Tortoise从SVN删除文件/文件夹: how to?
我在 svn 存储库的单独文件夹中有一些代码项目。现在我在删除文件时遇到一些问题:大多数时候一切顺利，但有时当我从磁盘删除文件或文件夹时， checkin 过程会出现各种错误。所以我想知道:在sv
r - 自动删除文件/文件夹
有没有什么方法可以用很少的R命令行自动删除所有文件或文件夹？我知道 unlink() 或 file.remove() 函数，但对于这些函数，您需要定义一个字符向量，其中包含您想要的文件的所有名称删除。
powershell - 获取未在特定日期范围内写入的文件/文件夹
用于在文件夹中查找不符合Get-Childitem的LastWriteTime过滤器日期范围标准的文件的powershell命令是什么？因此，请检查目录中是否包含不包含在01/10/2012(十月1
NSIS 卸载程序不会删除文件/文件夹
我正在为我工作的公司内部使用的应用程序之一编写 NSIS 安装程序，安装过程工作正常，所有 REG 键都已创建，文件夹和服务也没有问题，该应用程序使用。出于某种我无法理解的原因，卸载过程不起作用。
excel - 文件夹.文件的相对路径
我有一个 Excel 文件，并且在同一文件夹中还有一个包含我想要包含的 CSV 文件的文件夹。使用“来自文件夹”查询，第一步将给出以下查询: = Folder.Files("D:\OneDrive\D
docker - 如何创建XFS格式的磁盘/文件夹
我在docker中玩ScyllaDB。为了使ScyllaDB在docker生产设置中最有效地运行，它需要一个XFS格式的磁盘。您知道如何在Linux和MacO中创建XFS容器卷，磁盘文件吗？谢谢
带乘法的 Haskell 文件夹
我应该编写一个函数，其中包含之前每次与该数字相乘的乘积基本上是这样的: > productFromLeftToRight [2,3,4,5] [120,60,20,5] 我应该使用高阶函数，例如折叠

首页

博学

6Ren·AI

商城

java - 如何在HADOOP中处理多个文件夹