- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个 mapReduce 任务 (https://github.com/flopezluis/testing-hadoop),它读取文件夹中的文件并将它们附加到 zip。我需要永远运行这个任务,所以当它完成处理它们时,它应该再次运行。我正在阅读有关 oozie 的信息,但我不确定它是否最合适,因为它可能对我的问题来说太大了。
如果 oozie 是最好的解决方案。如果我编写一个协调器每 10 分钟运行一次,如果任务耗时超过 10 分钟,协调器等待再次运行该任务会怎样?
任务说明
文件夹总是一样的。有不同的 zip 文件,一个是关键。这个想法是逐步创建 zip 文件。我认为这比处理完所有文件后创建 zip 文件要快。这些文件包含如下内容:
<info operationId="key1">
DATA1
</info>
<info operationId="key1">
DATA2
</info>
<info operationId="key2">
DATA3
</info>
所以 zipper 会是这样的:
key1.zip --> data1, data2
key3.zip --> data3
谢谢
最佳答案
您可以为此使用 oozie。 Oozie 有一个设置可以限制一次可以运行多少个作业实例。如果您的第一份工作在几分钟后还没有完成,它将等待运行下一份工作。
来自 Oozie 文档:
6.1.6。协调器操作执行策略协调器作业的执行策略可以在协调器应用程序中定义。• 超时:协调器作业可以指定其协调器操作的超时时间,即协调器操作在放弃执行之前处于 WAITING 或 READY 状态的时间。• 并发性:协调器作业可以为其协调器操作指定并发性,即在协调器引擎开始限制它们之前允许并发运行多少个协调器操作(RUNNING 状态)。• 执行策略:当协调器引擎中有协调器操作积压时,协调器作业可以指定其协调器操作的执行策略。不同的执行策略是“最旧优先”、“最新优先”和“仅最后一个”。积压通常是由于输入数据延迟、并发控制或手动重新运行协调器作业而发生的。
我还想评论一下,您可以让协调工作触发数据集的数据到达,但我对数据集不是很熟悉。
关于hadoop - 我应该永远使用 oozie 运行 MapReduce 任务吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11240487/
有人可以解释预定义谓词forall如何在列表中找到最小值吗? 最佳答案 对于列表L,您可以使用: member(Min,L), forall(member(N,L), N>=Min). 但是,尽管这是
编辑:澄清一下,我正在搜索的对象数组确实已按搜索变量的字母数字顺序进行了预排序。 我做了一个二分搜索函数并将它嵌套在另一个函数中。出于某种原因,每次我使用二进制搜索都无法找到相关的字符数组。 基本上,
是否可以阻止用户(甚至是管理员)终止我的程序? 或者万一被杀死,它会迅速恢复自身? 更新:澄清一下:我正在编写一个监控程序,类似于家长控制,它记录用户对 PC 的操作。你可以通过查看我最近的其他问题来
我有一个 for 循环,我希望它永远递增。 我的代码: for a in (0...Float::INFINITY).step(2) puts a end 输出: 0.0 2.0 4.0 Et
我很困惑。我有一个运行Ubuntu 14.04的VM。我在这里遵循了以下程序:http://clang.llvm.org/docs/LibASTMatchersTutorial.html,现在正在运行
这是我的代码 #include #include #include #include #include #include #include #include #include usi
我有一个程序会或多或少地通过标准输入使用 COPY FROM 将大量数据复制到 Postgres 9 中。 这目前工作正常,但我正在缓冲数据 block ,然后分批运行 COPY FROM 操作。 我
我想我不小心在某个地方安装了 Foreverjs 并启动了它。每次我杀死这个进程时,另一个进程就会取代它的位置 ] 1 我不知道永远在哪里(或者这实际上是导致它的原因),因为我在本地安装了它。 最佳答
我得到了一个 forever: command not found 当我使用 forever 命令作为 cronjob 运行 nodejs 进程时出现错误(在亚马逊 ec2 机器中):我正在使用的 b
我创建了一些容器,它们还没有准备好使用,总是“重新启动”状态: docker ps CONTAINER ID IMAGE COMMAND
我试图永远重复一个 IO 操作,但是将一个执行的结果输入到下一个执行中。像这样的东西: -- poorly named iterateM :: Monad m => (a -> m a) -> a -
这里的代码样式问题。 我看着this问题,它询问.NET CLR是否真的总是初始化字段值。 (答案是肯定的。)但令我感到惊讶的是,我不确定执行此操作始终是个好主意。我的想法是,如果我看到这样的声明:
美好的一天,我对永久启动\停止脚本有一些问题。 中央操作系统 6.2 内核 2.6.32-220.el6.x86_64 node.js v0.6.19 npm v 1.1.24 永远@0.9.2 我创
我在让管道与 paramiko 一起工作时遇到问题。 这个有效: ssh = paramiko.SSHClient() [...] stdin, stdout, stderr = ssh.exec_c
我希望守护我的 Node.js 应用程序。 Upstart 和永远有什么区别?另外,还有其他我可能想要考虑的软件包吗? 最佳答案 正如评论中指出的,upstart将用于启动 forever脚本,因为
我有以下查询,其中包含在 5 秒内返回数据的选择查询。但是当我在前面添加创建物化 View 命令时,查询需要创建物化 View 。 最佳答案 当您创建物化 View 时,实际上是创建了 Oracle
当我今天访问我的项目的 Google Cloud 控制台并单击“计算引擎”或“云存储”时,它只会永远显示“正在加载”。几天前,我能够看到我的虚拟机和存储桶。有没有办法让控制台再次工作? 谢谢, 麦克风
我编写了一个函数,它当前显示 1000 以下的所有质数。 我可以继续增大 1000 以生成更多数字,但我不知道如何让它在运行后一直持续下去。 func generatePrimes() { l
这是由 another question 触发的. 具体来说,我有一个进程中的 COM 类,它在 CLSID registry 中定义。因为有 ThreadingModel of Both . 我们的
我正在试用新的 React Hooks的 useEffect API,它似乎永远在无限循环中运行!我只希望 useEffect 中的回调运行一次。这是我的引用代码: 单击“运行代码片段”以查看“运行
我是一名优秀的程序员,十分优秀!