python - 使用 celery 处理巨大的文本文件

转载作者：太空狗更新时间：2023-10-29 18:08:16

26

4

背景

我正在研究使用 celery (3.1.8) 来处理每个巨大的文本文件 (~30GB)。这些文件在 fastq 中格式并包含大约 118M 测序“读数”，它们基本上都是 header 、DNA 序列和质量字符串的组合)。此外，这些序列来自双端测序运行，因此我同时迭代两个文件(通过 itertools.izip)。我希望能够做的是获取每对读取，将它们发送到队列，并让它们在我们集群中的一台机器上进行处理(不管是哪台机器)以返回清理后的版本如果需要进行清洁(例如，基于质量)，则读取。

我已经设置了 celery 和 rabbitmq，我的 workers 启动如下:

celery worker -A tasks --autoreload -Q transient

配置如下:

from kombu import Queue

BROKER_URL = 'amqp://guest@godel97'
CELERY_RESULT_BACKEND = 'rpc'
CELERY_TASK_SERIALIZER = 'pickle'
CELERY_RESULT_SERIALIZER = 'pickle'
CELERY_ACCEPT_CONTENT=['pickle', 'json']
CELERY_TIMEZONE = 'America/New York'
CELERY_ENABLE_UTC = True
CELERYD_PREFETCH_MULTIPLIER = 500

CELERY_QUEUES = (
    Queue('celery', routing_key='celery'),
    Queue('transient', routing_key='transient',delivery_mode=1),
)

我选择使用 rpc 后端和 pickle 序列化来提高性能，也没有将任何内容写入“ transient ”队列中的磁盘(通过 delivery_mode)。

celery 启动

为了设置 celery 框架，我首先在 64 路机器上启动 rabbitmq 服务器(3.2.3，Erlang R16B03-1)，将日志文件写入快速/tmp 磁盘。工作进程(如上所述)在集群上的每个节点(大约 34 个)上启动，范围从 8 路到 64 路 SMP，总共 688 个内核。因此，我有大量可用的 CPU 供工作人员用来处理队列。

作业提交/性能

celery 启动并运行后，我通过 ipython notebook 提交作业，如下所示:

files = [foo, bar]
f1 = open(files[0])
f2 = open(files[1])
res = []
count = 0
for r1, r2 in izip(FastqGeneralIterator(f1), FastqGeneralIterator(f2)):
    count += 1
    res.append(tasks.process_read_pair.s(r1, r2))
        if count == 10000:
        break
t.stop()
g = group(res)
for task in g.tasks:
    task.set(queue="transient")

读取 10000 对大约需要 1.5 秒。然后，我在群上调用延迟提交给 worker ，大约需要20s，如下:

result = g.delay()

使用 rabbitmq 控制台进行监控，我发现我做的不错，但速度还不够快。

rabbitmq graph

问题

那么，有什么办法可以加快速度吗？我的意思是，我希望看到每秒至少处理 50,000 个读取对，而不是 500 个。我的 celery 配置中是否有明显遗漏的内容？我的 worker 和兔子日志基本上是空的。想要一些关于如何提高我的表现的建议。每个单独的读取对处理也非常快:

[2014-01-29 13:13:06,352: INFO/Worker-1] tasks.process_read_pair[95ec7f2f-0143-455a-a23b-c032998951b8]: HWI-ST425:143:C04A5ACXX:3:1101:13938:2894 1:N:0:ACAGTG HWI-ST425:143:C04A5ACXX:3:1101:13938:2894 2:N:0:ACAGTG 0.00840497016907 sec

到目前为止

到目前为止，我用谷歌搜索了所有我能想到的 celery 、性能、路由、rabbitmq 等。我浏览了 celery 网站和文档。如果我不能获得更高的性能，我将不得不放弃这种方法而采用另一种解决方案(基本上将工作分成许多较小的物理文件并直接在每个计算节点上使用多处理或其他方式处理它们)。但是，如果无法将此负载分散到集群中，那将是一种耻辱。另外，这似乎是一个非常优雅的解决方案。

在此先感谢您的帮助!

最佳答案

不是答案，但评论时间太长。

让我们把问题缩小一点...

首先，尝试跳过所有正常的逻辑/消息准备，只使用您当前的库执行尽可能紧凑的发布循环。看看你得到什么比率。这将确定您的非队列相关代码是否存在问题。

如果仍然很慢，设置一个新的 python 脚本但使用 amqplib而不是 celery 。我已经设法让它以超过 6000/s 的速度发布，同时在中档桌面上做有用的工作(和 json 编码)，所以我知道它的性能。这将确定问题是否与 celery 库有关。 (为了节省您的时间，我从我的一个项目中截取了以下内容，希望在简化时不会破坏它...)

from amqplib import client_0_8 as amqp
try:
    lConnection = amqp.Connection(
        host=###,
        userid=###,
        password=###,
        virtual_host=###,
        insist=False)
    lChannel = lConnection.channel()
    Exchange = ###

    for i in range(100000):
        lMessage = amqp.Message("~130 bytes of test data..........................................................................................................")
        lMessage.properties["delivery_mode"] = 2
        lChannel.basic_publish(lMessage, exchange=Exchange)

    lChannel.close()
    lConnection.close()

except Exception as e:
    #Fail

在上述两种方法之间，您应该能够将问题追查到队列、库或您的代码之一。

关于python - 使用 celery 处理巨大的文本文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21438385/

26

4

0

文章推荐： c# - 在 ASP.NET Web API2 webservice 中实现 OAuth 访问 token

文章推荐： python - 使 Python 的 argparse 执行默认操作

文章推荐： angular - Angular 4 上的动画似乎没有过渡效果

celery - celery 拍打不正常
当我运行此命令进行 celery 节拍时。 [2013-06-27 02:17:05,936: INFO/MainProcess] Celerybeat: Starting... [2013-06-2
celery - Celery 任务可以在重启后存活吗？
我需要构建一个处理两种类型任务的系统。一种类型可以创建更多自身或另一种类型的任务。将有很少的 worker (2-3)和只有一个主机。最重要的要求是系统应该优雅地处理重新启动:即在重新启动时，正在进行
celery - 更改内置 celery 任务的超时(即 celery.backend_cleanup)
我们使用 Celery 4.2.1 和 Redis，并为我们的任务设置了全局软超时和硬超时。我们所有的自定义任务都设计为保持在限制范围内，但每天内置任务 backend_cleanup 任务最终都会因
celery - celery 延迟的阻塞版本？
我知道这违背了使用 Celery 的全部目的，但是是否有一个函数会阻塞直到结果返回？所以我可以调用 actual_result = MyTask.dont_delay(some_arg="foo")
celery - 更改内置 celery 任务的超时(即 celery.backend_cleanup)
我们使用 Celery 4.2.1 和 Redis，并为我们的任务设置了全局软超时和硬超时。我们所有的自定义任务都设计为保持在限制范围内，但每天内置任务 backend_cleanup 任务最终都会因
celery - celery 延迟的阻塞版本？
我知道这违背了使用 Celery 的全部目的，但是是否有一个函数会阻塞直到结果返回？所以我可以调用 actual_result = MyTask.dont_delay(some_arg="foo")
celery - Celery 中的回滚支持
我计划使用 celery 作为我的项目的任务管理组件。它几乎具有我的项目所需的所有功能。我将有一组可以独立执行或按指定顺序执行的任务。在顺序任务中，我希望能够在中间任务之一失败时执行清理/回滚。我想知
celery - Celery 工作节点到底是什么？
它是运行 Celery 的实际处理器还是另一个进程？在花中，我可以在工作池中看到多个进程吗？这两者之间有什么区别？最佳答案当您运行 celery worker 时，它会创建一个父进程来管理正在运行
python - 如何解决 celery 文件中带有关键字参数命名空间 ='"CELERY 错误的 celery worker 配置
我有一个名为 ShippingApp 的项目，我按照步骤设置了 celery worker。我将 celery 3.1.26.post2 与 python3.7 一起使用，当我想启动 Celery W
celery - 不能杀死 celery worker
尽我所能，我无法杀死这些 celery worker 。我跑: celery --app=my_app._celery:app status 我看到我有3个(我不明白为什么3个 worker = 2
celery - 使用命令行检查 celery 配置
我在 docker 容器中运行了 celery ，我想检查选项 CELERY_TASK_RESULT_EXPIRES = '3600' 是否已应用。我尝试使用 celery inspect conf
celery - 在 celery 中打破无限循环
我使用 celery.chord(...) 创建一组任务和一个方法，该方法在组中的所有任务完成后被调用。我使用 amqp 结果后端(但我想切换到 memcached)。我的 worker 每秒钟一
celery - 将生成的列表映射到 celery 中的任务的最佳方法
我正在寻找一些关于将任务生成的列表映射到 celery 中的另一个任务的最佳方法的建议。假设我有一个名为 parse 的任务，它解析 PDF 文档并输出页面列表。然后，每个页面都需要单独传递给另一个
celery - 在客户端/生产者上记录 celery
这不是关于如何捕获 celery worker 日志的问题。有什么方法可以捕获生产者上的 celery 日志记录。我想要的是捕获当我调用 task.delay(...) 或 task.apply_as
celery - 如何重新排列 celery 花默认列？
我正在使用以下版本: 花==0.9.3 celery ==4.3.0 这为我提供了包含多个列的任务页面的以下显示: 每次我进入这个页面时，我最终都会重新排列页面，使列的顺序不同，并将行的顺序更改为降序
celery - 安排 Celery 任务在其他任务完成后运行
我想完成这样的事情: results = [] for i in range(N): data = generate_data_slowly() res = tasks.process
celery - 如何在 celery 中安排链式任务
我想运行一个由beat 调度的复杂任务。让我们假设定义了默认的 add/mul 任务。 @app.on_after_configure.connect def setup_periodic_tasks
celery - 重新部署时如何避免中断正在运行的 Celery 任务？
我有一个应用程序，其中包含 celery worker 。当我部署这将杀死那些正在运行的进程。所以任务将开始，但永远不会完成，并且在部署完成时不会重新启动。避免此问题并在部署完成后重新启动这些任务
celery - 如何诊断挂起的 Celery worker
我正在开始使用 Celery 进行 Django 项目。出于本地开发目的，我根据这些说明使用 djcelery 和 djkombu(数据库传输)进行了设置 http://ask.github.com/
celery - 如何配置 Celery 在任务失败时发送电子邮件警报？
如何配置 celery 在任务失败时发送电子邮件警报？例如，我希望 Celery 在 3 个以上的任务失败或 10 个以上的任务被重试时通知我。是否可以使用 celery 或实用程序(例如花)，或

首页

博学

6Ren·AI

商城

python - 使用 celery 处理巨大的文本文件

背景

celery 启动

作业提交/性能

问题

到目前为止