gpt4 book ai didi

hadoop - 我应该使用 LSF 还是实现我自己的作业调度程序?

转载 作者:可可西里 更新时间:2023-11-01 16:10:36 35 4
gpt4 key购买 nike

我们在公司内部做一些文件处理\计算简单地说,我们有一份工作或任务涉及读取一个包含超过十亿条记录的巨大文件,解析文件并进行一些清理并将清理后的数据写入另一个文件。我们有数百个这样的工作,它们不断地被创建、提交、运行。每个作业处理自己的文件,因此我们不必担心并发问题。

为此,我们构建了自己的调度系统(MainFrame 和 Java 的组合)。我们目前的吞吐量约为每小时 4000 万条记录。

为了改善这一点(并提供更多的容错能力),我们正在评估 IBM 的 LSF 以帮助我们进行调度和创造工作。

你们中有没有人觉得使用 LSF 可能是解决这个问题的过度杀伤力?我可以考虑使用 AKKA 中的参与者模型实现并围绕它编写我自己的 Job Scheduler 来实现相同的目的。

有什么想法吗?

最佳答案

我的评论太长了,所以我把它作为一个答案,虽然它并没有真正回答你的问题(反正还没有)。

在引入新技术和推出您自己的解决方案之间需要权衡取舍。您是否需要在不同文件或一个文件中的记录之间进行交叉引用?如果没有,并且您逐行处理文件,则有数百万种方法可以在不使用任何框架的情况下编写脚本。引入 Akka(或为此目的的任何其他框架)可能会引入一些基础设施要求,这些要求可能比编写实际服务更昂贵。

TLDR:是的,你可以使用 Akka 来做到这一点(以及许多其他方法),但是有太多的未知数来决定它是否是“最佳”解决方案(引用因为没有“最佳”的定义这一点)。

关于hadoop - 我应该使用 LSF 还是实现我自己的作业调度程序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32336296/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com