hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce-6ren

hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce

转载作者：可可西里更新时间：2023-11-01 16:32:12

32

4

我们的日志文件存储在 S3 上的年/月/日/小时桶中。结构见下。

我如何将第 20 天的所有日志作为我的 map reduce 程序的输入传递？

例如:

bucket = logs/year=2014/month=8/day=20/hour=1/log1_1.txt

bucket = logs/year=2014/month=8/day=20/hour=2/log2_1.txt

bucket = logs/year=2014/month=8/day=20/hour=2/log2_2.txt

bucket = logs/year=2014/month=8/day=20/hour=2/log2_3.txt

bucket = logs/year=2014/month=8/day=20/hour=3/log3_1.txt

bucket = logs/year=2014/month=8/day=20/hour=4/log4_1.txt

最佳答案

当您说“存储桶”时，您实际上是指不同的 S3 存储桶，还是指存储桶中的文件夹/目录？创建那么多的存储桶最终会达到 S3 帐户对您可以创建的存储桶数量的限制。

假设您指的是存储桶中的文件夹/目录，请使用 s3distcp作为您的 EMR 集群中的一个步骤，将您想要的日志复制到 HDFS，然后使用 HDFS 目录作为 MR 程序的输入

s3distcp 使用一个 src 目录和一个 srcPattern 来过滤在 src 中找到的项目。在您的示例中，您可以:

./elastic-mapreduce --jobflow JobFlowID --jar \
/home/hadoop/lib/emr-s3distcp-1.0.jar \
--arg --src --arg s3://logs/ \
--arg --srcPattern --arg '.*day-20.*'
--arg --dest --arg hdfs://input/

路径中day=20 的所有日志文件将被复制到具有JobFlowID 的EMR 集群的HDFS 上的输入目录。

关于hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25492922/

32

4

0

文章推荐： c++ - 芯片的数据表没有说明如何与之通信

文章推荐： c# - web api 2.0 过滤器实现 customFilter 的最佳选择

文章推荐： python flask - 在不同的 url 上提供文件

文章推荐： hadoop - 计数并压扁 pig

netbeans - NetBeans 6.8添加了“添加JAR/文件夹”文件夹，但该软件包不存在
我在使用NetBeans 6.8时遇到以下问题。我通过项目属性->库->编译选项卡->添加JAR /文件夹添加带有jar的文件夹。在下一个窗口中，我选择文件夹，然后选择“复制到库文件夹”。但是，我仍然
url-rewriting - Web.config 将一个域重定向到非 https 文件夹，将另一个域重定向到 https 文件夹
我的网站有一个域别名。我想知道如何将 domainA.ext 的请求重定向到 https://domainA.ext/folderA和对 domainB.ext 的请求到 http://domainB
Android 创建自定义菜单(和自定义 res/menu 文件夹，没有 res/menu 文件夹)
我应该在 Eclipse 中构建的 Android 项目中创建自己的自定义菜单文件夹吗？例如，我想创建一种出现在所有 Activity 中的标题。我知道菜单应该在 res/menu 文件夹中的 XML
asp.net-mvc - 如何设置或指定 ASP.NET MVC 使用的 Controllers 文件夹，而不是默认的 Controllers 文件夹？
我正在使用 VS2008 和 .net 3.5。我在我的解决方案中创建了一个类库(Myproject.Controllers)。在这个类下，我添加了一个 Controllers 文件夹。在文件夹中我添
visual-studio-2012 - 如何在 VS2012 构建后步骤中获取 Visual Studio 2012 AddIns 文件夹(或当前用户的 "Documents"文件夹)？
我有一个包含生成后步骤的 Visual Studio 2012 扩展项目，我想在其中将 .dll 和 .AddIn 文件复制到当前用户的 Visual Studio 2012 AddIns 文件夹中。
Bash脚本根据文件大小更改 move 文件夹？
我在专有的 linux 发行版中有一些自动下载。他们去临时暂存盘。我想在它们完成后将它们 move 到主 RAID 阵列。我能看到的最好方法是检查磁盘上的文件夹，看看内容是否在最后一分钟发生了变化。
svn - 合并时忽略文件/文件夹
我目前正在使用 SVN 对我的软件项目进行版本控制。在一个正在进行的项目中，我有主干，用于客户的共同功能和规范以及分支，用于客户特定的。有没有办法在每次执行此类操作时标记一些不应合并到分支中的文
shell - 如何排除要删除的文件/文件夹
这个问题在这里已经有了答案: How to exclude a directory in find . command (45 个回答) 8 年前关闭。如何删除文件夹中的所有内容并排除特定文件夹和文
java - 创建文件/文件夹
如何在特定目录中创建具有当前日期和时间的文件夹或文件？ DateTimeFormatter f = DateTimeFormatter.ofPattern("uuuuMMdd HHmmss") ; L
sublimetext3 - 如何在系统文件资源管理器中打开文件/文件夹？
有没有办法在系统文件资源管理器的左侧“文件夹”栏中打开文件或文件夹？如果没有这个，我必须打开文件资源管理器并一直导航到该文件夹所在的位置才能操作文件，这确实很不方便。对于大多数带有这样导航栏的工具
去获取不下载到 SRC 文件夹
预期:我使用 go get 安装包，它在 src 文件夹中创建了所有必要的文件夹，但它们只出现在 pkg/mod 文件夹中，我不能使用它们。现实:它说它正在下载，完成，然后什么都没有。一切都在 W
PowerShell:从压缩文件中提取特定文件/文件夹
说 foo.zip包含: a b c |- c1.exe |- c2.dll |- c3.dll 哪里a, b, c是文件夹。如果我 Expand-Archive .\foo.zip -Destin
magento var 文件夹
不久前我正在删除 var 文件夹中 Magento 的缓存。我可能是错的，但我认为我犯了一个错误，而不是删除 var/cache 中的所有内容，而是意外删除了 var 中的所有内容。 Magento
svn - 通过Tortoise从SVN删除文件/文件夹: how to?
我在 svn 存储库的单独文件夹中有一些代码项目。现在我在删除文件时遇到一些问题:大多数时候一切顺利，但有时当我从磁盘删除文件或文件夹时， checkin 过程会出现各种错误。所以我想知道:在sv
r - 自动删除文件/文件夹
有没有什么方法可以用很少的R命令行自动删除所有文件或文件夹？我知道 unlink() 或 file.remove() 函数，但对于这些函数，您需要定义一个字符向量，其中包含您想要的文件的所有名称删除。
powershell - 获取未在特定日期范围内写入的文件/文件夹
用于在文件夹中查找不符合Get-Childitem的LastWriteTime过滤器日期范围标准的文件的powershell命令是什么？因此，请检查目录中是否包含不包含在01/10/2012(十月1
NSIS 卸载程序不会删除文件/文件夹
我正在为我工作的公司内部使用的应用程序之一编写 NSIS 安装程序，安装过程工作正常，所有 REG 键都已创建，文件夹和服务也没有问题，该应用程序使用。出于某种我无法理解的原因，卸载过程不起作用。
excel - 文件夹.文件的相对路径
我有一个 Excel 文件，并且在同一文件夹中还有一个包含我想要包含的 CSV 文件的文件夹。使用“来自文件夹”查询，第一步将给出以下查询: = Folder.Files("D:\OneDrive\D
docker - 如何创建XFS格式的磁盘/文件夹
我在docker中玩ScyllaDB。为了使ScyllaDB在docker生产设置中最有效地运行，它需要一个XFS格式的磁盘。您知道如何在Linux和MacO中创建XFS容器卷，磁盘文件吗？谢谢
带乘法的 Haskell 文件夹
我应该编写一个函数，其中包含之前每次与该数字相乘的乘积基本上是这样的: > productFromLeftToRight [2,3,4,5] [120,60,20,5] 我应该使用高阶函数，例如折叠

首页

博学

6Ren·AI

商城

hadoop - 将不同 S3 文件夹中的文件作为输入传递给 mapreduce