gpt4 book ai didi

python - 谷歌应用引擎 : How to use the task queue for this processing?

转载 作者:太空宇宙 更新时间:2023-11-03 12:52:06 24 4
gpt4 key购买 nike

我正在使用 Python GAE SDK。

我有一些处理需要在 6000 多个 MyKind 实例上完成。在单个请求中完成它太慢了,所以我正在使用任务队列。如果我让单个任务只处理一个实体,那么它应该只需要几秒钟。

documentation表示只能在“批处理”中添加 100 个任务。 (这是什么意思?在一个请求中?在一项任务中?)

因此,假设“批处理”表示“请求”,我试图找出为数据存储区中的每个实体创建任务的最佳方法。你怎么看?

如果我可以假设 MyKind 的顺序永远不会改变,那就更容易了。 (处理永远不会真正改变 MyKind 实例 - 它只会创建其他类型的新实例。)我可以做一堆任务,给每个任务一个开始位置的偏移量,间隔小于相隔100。然后,每个任务都可以创建执行实际处理的单独任务。

但是如果实体太多,原始请求无法添加所有必要的调度任务怎么办?这让我觉得我需要一个递归解决方案——每个任务都会查看给定的范围。如果范围内只有一个元素,它会对其进行处理。否则,它将范围进一步分割为后续任务。

如果我不能指望使用偏移量和限制来识别实体(因为不能确保它们的顺序是恒定的),也许我可以只使用它们的键?但是我可能会发送 1000 个 key ,这看起来很笨重。

我走的这条路是正确的,还是我应该考虑另一种设计?

最佳答案

当你运行像 taskqueue.add(url='/worker', params={'cursor': cursor}) 这样的代码时,你正在排队一个任务;使用您提供的参数安排带外执行请求。您显然可以在一次操作中安排多达 100 个这样的操作。

不过,我认为您不想这样做。任务链将使这变得简单得多:

你的工作任务会做这样的事情:

  • 运行查询以获取一些记录进行处理。如果在任务参数中提供了游标,请使用它。将查询限制为 10 条记录,或者您认为可以在 30 秒内完成的任何记录。

  • 处理您的 10 条记录

  • 如果您的查询返回 10 条记录,请将另一个任务加入队列并将查询中更新的游标传递给它,以便它可以从您离开的地方继续。

  • 如果您得到的记录少于 10 条,您就完成了。万岁!发送电子邮件或其他内容然后退出。

此路由只需要启动第一个任务,其余的自行添加。

请注意,如果任务失败,App Engine 将重试直到成功,因此您无需担心数据存储中断导致任务超时并中断链。

编辑:

上述步骤并不能保证一个实体只会被处理一次。任务通常应该只运行一次,但 Google 确实建议您进行幂等性设计。如果这是一个主要问题,这里有一种处理方法:

  • 在每个要处理的实体上放置一个状态标志,或创建一个互补实体来保存该标志。它应该具有类似于待处理、处理中和已处理的状态。

  • 当您获取要处理的新实体时,事务性地锁定并递增处理标志。仅运行处于待处理状态的实体。处理完成后,再次增加标志。

请注意,在开始之前,并非绝对有必要将处理标志添加到每个实体。您的“待定”状态可能仅表示该属性(property)或相应的实体尚不存在。

关于python - 谷歌应用引擎 : How to use the task queue for this processing?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3225470/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com