hadoop - mapreduce成功后如何删除输入文件-6ren

hadoop - mapreduce成功后如何删除输入文件

转载作者：可可西里更新时间：2023-11-01 14:31:52

38

4

我们有一个系统可以接收指定目录中的文件，并定期启动一个 mapreduce 作业来打开文件并处理其中的文件。为了避免下次重新处理相同的文件，我们连接到 RecordReader 上的 close() 方法，以便在读取最后一个条目后将其删除。

这种方法的问题(我们认为)是，如果一个特定的映射失败，下一个再次尝试它的映射器会发现原始文件已被记录读取器从第一个读取器中删除，并且它会爆炸。我们认为要走的路是等到所有映射和归约完成后再删除输入文件。

这是最好的方法吗？

如果是这样，我们如何从主程序中获取系统找到的所有输入文件的列表？ (我们不能只删除整个输入目录，新文件可能存在)

即:

   . . .

   job.waitForCompletion(true);

   (we're done, delete input files, how?)

   return 0;
}

最佳答案

一些评论。

我认为这种设计容易让人心痛。当您发现有人将困惑的算法部署到您的 MR 集群并且您必须回填一个月的文件时会发生什么？他们现在走了。如果处理时间比预期的长，并且需要在旧作业完全完成之前开始新作业，会发生什么情况？文件太多，有些文件需要重新处理。当文件仍在运行中时工作何时开始呢？等等
摆脱这个陷阱的一个方法是让文件根据时间转到一个轮换位置，然后自己清除记录或(在 S3 之类的情况下)建立一个保留策略，允许特定的操作窗口。此外，无论后端 map reduce 处理在做什么，都可以是幂等的:处理同一条记录两次与处理一次应该没有任何不同。有些事情告诉我，如果你正在减少你的数据集，那么该属性将很难保证。
至少您可以重命名您处理的文件而不是立即删除它们，并使用 glob 表达式来定义不包括重命名文件的输入。正如我上面提到的，仍然存在竞争条件。
您可以使用 Amazon SQS 等队列来记录存档的传送，并且您的 InputFormat 可以提取这些条目，而不是在确定输入拆分时列出存档文件夹。但是，如果没有额外的基础设施，再处理或回填就会成为问题。
综上所述，拆分列表是由 InputFormat 生成的。围绕它编写一个装饰器，你可以将拆分列表存放在任何你想在工作完成后供主人使用的地方。

关于hadoop - mapreduce成功后如何删除输入文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19017782/

38

4

0

文章推荐： hadoop - HbaseTestingUtility : could not start my mini-cluster

文章推荐： hadoop - 如何在emr上重启hadoop集群

文章推荐： java - Apache Pig UDF 解析问题

文章推荐： java - 产生奇怪结果的简单字数统计 MapReduce 示例

jQuery AJAX 成功
我正在使用 jQuery 的 $.ajax 函数来提交表单，它可以工作，但成功正是我遇到问题的地方。这是我的代码: $("#form").submit(function () { $.
javascript - 取消ajax()成功
我正在使用动态分页。我需要在开始另一个事件之前取消 jQuery ajax 中的 success 事件。我已经设置了一个等于$.ajax()的变量，在这样做之前，无论如何我都会调用abort。问
jquery - AJAX查询错误/成功
如果我错了，请纠正我，但我对 $.post 成功/失败的理解是，如果 url 有效，这将返回成功。唯一会返回失败的情况是 url 无效。如果这是真的，我如何验证成功函数？我问的原因是无论发生什么，即
CreateFile() 成功，但文件不在磁盘上。
HANDLE hFile = CreateFile(LPCTSTR("filename"), // name of the write
android - SmsManager 成功
我正在使用以下代码发送短信。但这似乎不会在未发送短信时产生异常。例如，当没有足够的钱发送时，我仍然会去 smsSucces();有没有人知道解决此问题的方法以确保它已发送？ private b
c# - 日期时间转换在不同计算机上失败/成功
我正在尝试将字符串转换为 DateTime，在一台计算机上，它工作正常，但在另一台计算机上，它却不行!它运行的计算机运行的是 32 位 Windows 7，它不运行的计算机运行的是 64 位 Wind
jQuery 成功/错误函数
我在页面上使用表单让用户输入将用于各种目的的图像的 url。我正在编写一个 ajax 方法来确定他们提供的 url 是否实际上是图像。到目前为止，我已经这样做了: $(document).on('re
PHP Ajax 成功
我在 jquery 中对 php 脚本进行 ajax 调用。但是 php 脚本需要返回什么才能触发 ajax 中的成功/错误处理程序。所以这是 ajax: $.ajax({ data:
mediaelement.js setMuted() 成功
几个简单的问题: 对于 native 和 Flash/Silverlight 垫片来说，成功事件是“规范化”事件吗？记录的示例表明它仅适用于 Flash/Silverlight 对象准备就绪的情况。
php - PDO 成功，但什么都不返回？
这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
grails - 让 Groovy 成功!
我尝试使用新的 Groovy Grape Groovy 1.6-beta-2 中的功能，但我收到一条错误消息； unable to resolve class com.jidesoft.swing.J
reactjs - 等待所有的 promise 成功
我正在使用 sequelize/nodejs/express/react 将实体持久化到 postgres 数据库我有两个主要模型，国家和事件，我正在使用该应用程序，并且有一个名为“保存到数据库”的
jquery - 成功 jQuery 验证后启用禁用按钮
我有以下代码，其中有 2 个电子邮件输入字段，我需要验证它们是否相同，并且使用 jQuery validate equalTo 成功运行。 Email Address
reactjs - 成功 saga 后更改路线
我正在尝试找出解决此问题的正确方法。假设我们有一家元素商店。这些项目可以编辑、删除和创建。编辑或添加项目时，路线更改为/item/add 或/item/edit/{id}。在 saga 成功添加或
javascript - 设置 var 成功
这个问题已经有答案了: How do I return the response from an asynchronous call? (42 个回答) 已关闭 8 年前。我有这段代码，警报工作正常
php - 如何使用PHP处理向用户发送的站点反馈消息(成功/错误)？
Closed. This question needs to be more focused。它当前不接受答案。想改善这个问题吗？更新问题，使其仅关注editing this post的一个问题。
javascript - 成功 ajax 调用后删除点击范围
我想在单击超链接 (.remove_resort) 时(成功的 ajax 调用后)删除超链接的(父)跨度。虽然ajax调用成功，但是最后span并没有被移除。这里出了什么问题？请记住:有几个类
winapi - ClipCursor 成功，但实际上什么也没做
我正在编写一个非常简单的程序来将鼠标剪辑到指定的窗口。它从系统托盘运行，没有可见窗口。由于同一窗口会有多个实例，因此它使用 EnumWindows() 迭代每个顶级窗口，并将它们的 hwnd 与 Ge
javascript - if 语句显示 Angular 成功
我正在尝试找出如何执行 if 语句，以便如果玩家的击球率超过 0.250，则会为成功的 tr 添加一个类别。我发现了以下堆栈问题，但我不确定可以使用或应该使用哪种方式以及如何使用这些堆栈问题。 ht
Prolog 大于/2 成功
我是 Prolog 的新手，我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation

首页

博学

6Ren·AI

商城

hadoop - mapreduce成功后如何删除输入文件