gpt4 book ai didi

Java集群,只运行一次任务

转载 作者:行者123 更新时间:2023-12-02 04:06:35 24 4
gpt4 key购买 nike

我们有一个 java 进程,它使用 apache commons vfs 监听文件系统上的目录 X。每当将新文件导出到此目录时,我们的流程就会启动。我们首先将文件重命名为 filename.processing 并解析文件名,从文件中获取一些信息并插入表中,然后将此文件发送到文档管理系统。这是每个集群的单线程应用程序。现在考虑在集群环境中运行,我们有 5 台服务器。因此,5 个不同的虚拟机正在尝试访问同一文件。整个实现的基础是,在给定时间只有一个进程可以将文件重命名为.processing,因为操作系统不允许多个进程同时修改该文件。一旦集群获取并将文件重命名为.processing,其他集群将忽略格式为.processing的文件。

一年多以来,该功能一直运行良好,但刚刚我们发现了一些重复项。看起来多个集群都掌握了该文件,在这种情况下,集群 a、b、c 可以访问文件 f.pdf,并且同时将其重命名为 f.pdf.processing,(我仍然感到困惑)操作系统如何允许同时修改文件)。结果,集群 a、b、c 处理了该文件并将其发送到文档管理系统。所以现在有 3 个重复文件。

简而言之,我正在寻找的是在集群环境中仅运行一次任务的方法。我还希望它有一个故障转移机制,这样如果集群出现问题,另一个集群就会接手任务。我们不想设置 env 变量,例如在一台机器上设置 master=true,因为这会将其限制为只有一个集群,并且不会处理故障转移。

感谢任何形式的帮助。

最佳答案

请参阅以下有关文件锁定的帖子:How do filesystems handle concurrent read/write?

正如您所假设的那样,文件的读写操作(包括重命名)不是原子的,也不是进程之间良好同步的 - 至少在大多数操作系统上并非如此。

但是,创建新文件通常是一个原子操作。您可以利用它来发挥自己的优势。这个概念称为整个文件锁定。

关于Java集群,只运行一次任务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34233260/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com