gpt4 book ai didi

Azure Batch 任务陷入“运行”状态

转载 作者:行者123 更新时间:2023-12-02 07:09:44 24 4
gpt4 key购买 nike

我在 Azure Batch 上有几个任务停留在“正在运行”状态,尽管节点服务器对此一无所知(未在那里运行,未找到文件夹)。 GUI 中的任何任务操作(终止、删除、在节点上显示文件)均以 终止任务 t20171129-0010-03 时出错。服务器返回“500 内部服务器错误”。。这种情况在不同的池/作业/任务上发生了几次。

现在我已经检查了节点本身的调试文件,问题似乎是由未能延长租约并随后从节点中删除任务引起的,但是中止更新任务表的尝试没有事件队列租用

这是我可以避免的事情,还是只是 Azure Batch 服务中的一个错误? “租约”到底是什么?需要多久续订一次? (我的 Azure 订阅不包含技术支持)。

日志中有趣的行:

agent.task.lease■lease.py■_renew_lease_unsafe_async■106■1398■MainThread■139690855581440■extending lease for pd1batch 22F55DC6E98C8653$1a-python 22F4F1C234F19066$job-1$t20171129-0010-06
requests.packages.urllib3.connectionpool■connectionpool.py■_make_request■387■1398■Thread-1■139690661328640■"PUT /pd1batch-a-fa357c64-5c3d-4db8-9366-680943d2c20d/messages/821bf60d-3ba5-43a1-9c3d-c7500758bfea?sv=2015-07-08&se=2017-12-06T00%3A42%3A17Z&sp=up&sig=XXX&visibilitytimeout=360&popreceipt=AwAAAAMAAAAAAAAAFePc%2BR5u0wEBAAAA HTTP/1.1" 404 221
azurestorage.helper.HTTPNotFoundError: 404 Client Error: The specified message does not exist. for url: https://watbl2prod1.queue.core.windows.net/pd1batch-a-fa357c64-5c3d-4db8-9366-680943d2c20d/messages/821bf60d-3ba5-43a1-9c3d-c7500758bfea?sv=2015-07-08&se=2017-12-06T00%3A42%3A17Z&sp=up&sig=mU9501N4HHuDeRWuA7qMNni9M%2Fbb83OWLF8AW0%2B4nQE%3D&visibilitytimeout=360&popreceipt=AwAAAAMAAAAAAAAAFePc%2BR5u0wEBAAAA
agent.task.lease■lease.py■_renew_lease_unsafe_async■119■1398■MainThread■139690855581440■failed to extend lease for pd1batch 22F55DC6E98C8653$1a-python 22F4F1C234F19066$job-1$t20171129-0010-06
agent.task.manager■manager.py■handle_task_lease_extension_error_async■4713■1398■MainThread■139690855581440■deleting task pd1batch 22F55DC6E98C8653$1a-python 22F4F1C234F19066$job-1$t20171129-0010-06$0 because lease was lost
agent.task.manager■manager.py■_postprocess_execute_task_async■2255■1398■MainThread■139690855581440■updating row in task table for: pd1batch 22F55DC6E98C8653$1a-python 22F4F1C234F19066$job-1$t20171129-0010-06$0
agent.task.manager■manager.py■_update_tasktable_entity_async■1624■1398■MainThread■139690855581440■aborting attempt to update task table without an active queue lease for pd1batch 22F55DC6E98C8653$1a-python 22F4F1C234F19066$job-1$t20171129-0010-06$0

整个日志:https://pastebin.com/fkqTRuBe

最佳答案

目前,Azure Batch 任务的总生命周期为 7 天,从提交到作业时算起 here .

达到此限制时,系统中会出现阻止任务状态更新传播的问题。但是,如果您观察任务运行的节点状态,它将返回空闲状态(假设没有其他任务被调度到它或当前正在运行)。

您有几种选择可以避免这种情况。如果您的工作负载适合扩展或迁移到性能更高的虚拟机类型,以便您的任务在时间限制内完成。如果您可以通过执行分布计算或将问题分成更小的大小并以令人尴尬的并行方式运行来扩展您的问题(或进一步扩展),这可能有助于解决您的问题。

当前的行为不太用户友好。 future 计划增加此限制。

关于Azure Batch 任务陷入“运行”状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47674542/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com