gpt4 book ai didi

java - Tomcat 中的高可用性单例处理器

转载 作者:行者123 更新时间:2023-11-29 09:08:56 28 4
gpt4 key购买 nike

我有一个针对 RDBMS 的作业处理分析服务,由于需要复杂的缓存和缓存更新逻辑,因此需要在高可用性集群中成为单例。作业以 JMS 消息的形式出现(通过 ActiveMQ)。它是托管在具有 Web 前端的 HA Tomcat 集群中的应用程序的一部分。

问题是,如果服务运行的节点发生故障,服务本身需要能够在几秒钟内恢复。故障可能意味着系统停机或只是 CPU 速度慢 - 即如果节点在 CPU 延迟后恢复,但处理已移交,它无法继续。

根据经验,这里最合适的解决方案是什么:

  • 基于数据库的锁和每个作业开始前的锁检查(我在这里无法轻易想出万无一失的解决方案 - 有什么建议吗?)
  • 某种 Paxos 算法?您是否知道用于该目的的任何精简框架,因为算法本身需要时间才能正确,然后进行质量检查?
  • 还有什么事吗?

我不介意故障恢复是否缓慢,但我想尽量减少每个作业的开销。

一些额外的背景:工作只涉及从数据库中读取数据、使用各种算法对其进行处理(有点类似于寻找最短路线)并为不同的参与者提供最佳解决方案以继续前进。 Actor 与现实世界互动并返回一些反馈,基于这些反馈由同一作业处理器优化后续步骤。

最佳答案

使用 Hazelcast 的解决方案

Tomasz 作品提出的 Hazelcast 锁定方法。你需要 read documentation carefully ,使用时间租用锁并确保监控您的单例以续订租约。要记住的一件事是,Hazelcast 是为在大型集群中工作而编写的——因此它的启动时间相对较慢,即使是两个节点也需要 1 到 5 秒。但是在那之后操作非常高效并且获得锁需要几毫秒。通常这一切都无关紧要,但故障/恢复周期需要时间,应作为异常情况处理。

此解决方案的防弹性存在局限性。如果集群被拆分(节点之间的网络中断)但每个节点都处于 Activity 状态并且可以访问数据库,则无法确定地知道如何进行。最后,您需要在这里考虑一个应急计划。在现实生活中,对于典型的故障转移 HA 设置,这种情况不太可能发生。

归根结底,在求助于分布式锁定解决方案之前,请仔细考虑让您的进程不那么单例。并行运行某些事情可能仍然很困难,但确保缓存不会过时或找到其他方法来防止数据库损坏可能并不难。在我的例子中,有一个像优化锁一样工作的数据库事务计数器。代码在做出所有决定和更新之前读取它——它在存储结果的事务中的数据库和缓存中的哪个位置。如果存在差异,缓存将被清除并重复操作。它使并行​​工作的两个节点慢得不可思议,但它可以防止数据损坏。通过使用事务计数器存储额外的数据,您可以优化缓存刷新策略并慢慢转向并行处理。

结论。

这就是我下次处理此类请求的方式。

  1. 尝试让您的单例在不同节点上并行工作
  2. 再试一次,也许有办法协调它们
  3. 检查是否可以使用 HASingleton 或类似技术来避免样板
  4. 实现上述 Hazelcast 解决方案

将代码贴在这里是没有意义的,因为最耗时的部分是测试和验证所有故障场景和应急计划。几乎没有样板,代码本身总是特定于解决方案的。有可能在几天内提出涵盖所有基地的运作良好的 PoC。

关于java - Tomcat 中的高可用性单例处理器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13386495/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com