- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我一直在看 Rick Branson 的 PyCon 视频:Messaging at Scale at Instagram .您可能想观看视频来回答这个问题。 Rick Branson 使用 Celery、Redis 和 RabbitMQ。为了让你跟上速度,每个用户都有一个 redis 列表作为他们的主页。每个列表都包含他们关注的人发布的照片的媒体 ID。
例如,贾斯汀比伯拥有 150 万粉丝。当他发布一张照片时,该照片的 ID 需要插入到他的每个关注者的每个单独的 redis 列表中。这称为 Fanout-On-Write 方法。但是,这种方法存在一些可靠性问题。它可以工作,但对于像 Justin Bieber 或 Lady Gaga 这样拥有数百万粉丝的人来说,在 Web 请求中执行此操作(您有 0-500 毫秒的时间来完成请求)可能会出现问题。届时,请求将超时。
于是Rick Branson决定使用Celery,一个基于分布式消息传递的异步任务队列/作业队列。任何繁重的工作,例如将媒体 ID 插入关注者列表,都可以在 Web 请求之外异步完成。请求将完成,celery 将继续将 ID 插入所有列表。
这种方法创造了奇迹。但同样,您不想将 Justin 的所有追随者一次性交付给 Celery,因为这会占用 Celery 工作人员的时间。为什么不让多个 worker 同时处理它以便更快地完成呢?卓见!您希望将这个 block 分解成更小的 block ,并让不同的工作人员处理每批。里克布兰森做了一批 10,000 名粉丝,他使用一种叫做游标的东西来为贾斯汀比伯的所有粉丝不断插入媒体 ID,直到完成。在视频中,他在 3:56 中谈到了这一点
我想知道是否有人可以对此进行更多解释并举例说明如何做到这一点。我目前正在尝试进行相同的设置。我使用 Andy McCurdy 的 redis-py python 客户端库与我的 redis 服务器通信。对于我服务中的每个用户,我都会创建一个 redis 关注者列表。
因此 ID 为 343 的用户将在以下键处有一个列表:
followers:343
我还为每个用户创建了一个主页列表。每个用户都有自己的列表。因此 ID 为 1990 的用户将在以下键处有一个列表:
homefeed:1990
在“followers:343”redis列表中,包含了所有关注用户343的人的ID。用户343有20007个关注者。下面,我将检索列表中从索引 0 开始一直到结尾 -1 的所有 ID,只是为了向您展示它的样子。
>>> r_server.lrange("followers:343", 0, -1)
['8', '7', '5', '3', '65', '342', '42', etc...] ---> for the sake of example, assume this list has another 20,000 IDs.
您看到的是所有关注用户 343 的用户 ID 的列表。
这是我的 proj/mydjangoapp/tasks.py,其中包含我的 insert_into_homefeed 函数:
from __future__ import absolute_import
from celery import shared_task
import redis
pool = redis.ConnectionPool(host='XX.XXX.XXX.X', port=6379, db=0, password='XXXXX')
@shared_task
def insert_into_homefeed(photo_id, user_id):
# Grab the list of all follower IDs from Redis for user_id.
r_server = redis.Redis(connection_pool=pool)
followers_list = r_server.lrange("followers:%s" % (user_id), 0, -1)
# Now for each follower_id in followers_list, find their homefeed key
# in Redis and insert the photo_id into that homefeed list.
for follower_id in followers_list:
homefeed_list = r_server.lpush("homefeed:%s" % (follower_id), photo_id)
return "Fan Out Completed for %s" % (user_id)
在此任务中,当从 Django View 调用时,它将获取所有关注用户 343 的人的 ID,然后将照片 ID 插入到他们所有的主页列表中。
这是我在 proj/mydjangoapp/views.py 中的上传 View 。我基本上调用 celery 的 delay 方法并传递必要的变量,以便请求快速结束:
# Import the Celery Task Here
from mydjangoapp.tasks import insert_into_homefeed
@csrf_exempt
def Upload(request):
if request.method == 'POST':
data = json.loads(request.body)
newPhoto = Photo.objects.create(user_id = data['user_id'], description= data['description'], photo_url = data['photo_url'])
newPhoto_ID = newPhoto.pk
insert_into_homefeed.delay(newPhoto_ID, data['user_id'])
return HttpResponse("Request Completed")
我怎样才能按 10,000 个批处理?
最佳答案
视频中描述的方法是任务“链接”。
为了让您的任务方法作为一个链启动并运行,您需要添加一个额外的参数来代表关注者列表中的索引。该任务不是处理完整的关注者列表,而是只处理固定的批量大小,从传递给它的索引参数开始。完成时,任务应创建一个新任务并传递新索引。
INSERT_INTO_HOMEFEED_BATCH = 10000
@shared_task
def insert_into_homefeed(photo_id, user_id, index=0):
# Grab the list of all follower IDs from Redis for user_id.
r_server = redis.Redis(connection_pool=pool)
range_limit = index + INSERT_INTO_HOMEFEED_BATCH - 1 # adjust for zero-index
followers_list_batch = r_server.lrange("followers:%s" % (user_id), index, range_limit)
if not followers_list_batch:
return # zero followers or no more batches
# Now for each follower_id in followers_list_batch, find their homefeed key
# in Redis and insert the photo_id into that homefeed list.
for follower_id in followers_list:
homefeed_list = r_server.lpush("homefeed:%s" % (follower_id), photo_id)
insert_into_homefeed.delay(photo_id, user_id, range_limit + 1)
这很有效,因为 Redis lists are ordered和 lrange 命令 doesn't return an error on out-of-range inputs .
关于python - Django、 celery 、Redis、RabbitMQ : Chained Tasks for Fanout-On-Writes,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21007096/
当我运行此命令进行 celery 节拍时。 [2013-06-27 02:17:05,936: INFO/MainProcess] Celerybeat: Starting... [2013-06-2
我需要构建一个处理两种类型任务的系统。一种类型可以创建更多自身或另一种类型的任务。将有很少的 worker (2-3)和只有一个主机。最重要的要求是系统应该优雅地处理重新启动:即在重新启动时,正在进行
我们使用 Celery 4.2.1 和 Redis,并为我们的任务设置了全局软超时和硬超时。我们所有的自定义任务都设计为保持在限制范围内,但每天内置任务 backend_cleanup 任务最终都会因
我知道这违背了使用 Celery 的全部目的,但是是否有一个函数会阻塞直到结果返回? 所以我可以调用 actual_result = MyTask.dont_delay(some_arg="foo")
我们使用 Celery 4.2.1 和 Redis,并为我们的任务设置了全局软超时和硬超时。我们所有的自定义任务都设计为保持在限制范围内,但每天内置任务 backend_cleanup 任务最终都会因
我知道这违背了使用 Celery 的全部目的,但是是否有一个函数会阻塞直到结果返回? 所以我可以调用 actual_result = MyTask.dont_delay(some_arg="foo")
我计划使用 celery 作为我的项目的任务管理组件。它几乎具有我的项目所需的所有功能。我将有一组可以独立执行或按指定顺序执行的任务。在顺序任务中,我希望能够在中间任务之一失败时执行清理/回滚。我想知
它是运行 Celery 的实际处理器还是另一个进程?在花中,我可以在工作池中看到多个进程吗?这两者之间有什么区别? 最佳答案 当您运行 celery worker 时,它会创建一个父进程来管理正在运行
我有一个名为 ShippingApp 的项目,我按照步骤设置了 celery worker。我将 celery 3.1.26.post2 与 python3.7 一起使用,当我想启动 Celery W
尽我所能,我无法杀死这些 celery worker 。 我跑: celery --app=my_app._celery:app status 我看到我有3个(我不明白为什么3个 worker = 2
我在 docker 容器中运行了 celery ,我想检查选项 CELERY_TASK_RESULT_EXPIRES = '3600' 是否已应用。 我尝试使用 celery inspect conf
我使用 celery.chord(...) 创建一组任务和一个方法,该方法在组中的所有任务完成后被调用。 我使用 amqp 结果后端(但我想切换到 memcached)。 我的 worker 每秒钟一
我正在寻找一些关于将任务生成的列表映射到 celery 中的另一个任务的最佳方法的建议。 假设我有一个名为 parse 的任务,它解析 PDF 文档并输出页面列表。然后,每个页面都需要单独传递给另一个
这不是关于如何捕获 celery worker 日志的问题。有什么方法可以捕获生产者上的 celery 日志记录。我想要的是捕获当我调用 task.delay(...) 或 task.apply_as
我正在使用以下版本: 花==0.9.3 celery ==4.3.0 这为我提供了包含多个列的任务页面的以下显示: 每次我进入这个页面时,我最终都会重新排列页面,使列的顺序不同,并将行的顺序更改为降序
我想完成这样的事情: results = [] for i in range(N): data = generate_data_slowly() res = tasks.process
我想运行一个由beat 调度的复杂任务。让我们假设定义了默认的 add/mul 任务。 @app.on_after_configure.connect def setup_periodic_tasks
我有一个应用程序,其中包含 celery worker 。当我部署这将杀死那些正在运行的进程。 所以任务将开始,但永远不会完成,并且在部署完成时不会重新启动。 避免此问题并在部署完成后重新启动这些任务
我正在开始使用 Celery 进行 Django 项目。出于本地开发目的,我根据这些说明使用 djcelery 和 djkombu(数据库传输)进行了设置 http://ask.github.com/
如何配置 celery 在任务失败时发送电子邮件警报? 例如,我希望 Celery 在 3 个以上的任务失败或 10 个以上的任务被重试时通知我。 是否可以使用 celery 或实用程序(例如花),或
我是一名优秀的程序员,十分优秀!