gpt4 book ai didi

用于大规模分析的 Python 策略(即时或延迟)

转载 作者:太空宇宙 更新时间:2023-11-04 10:58:43 25 4
gpt4 key购买 nike

要分析大量网站或财务数据并提取参数数据,最佳策略是什么?

我将以下策略归类为“即时”或“延迟”策略。哪个最好?

  1. 即时:即时处理数据并将参数数据存储到数据库中
  2. 延迟:将所有源数据作为 ASCII 存储到文件系统中,稍后进行后期处理,或使用处理数据守护进程
  3. 延迟:将所有页面作为 BLOB 存储在数据库中,以便稍后进行后处理,或使用处理数据守护进程

第 1 种方法最简单,尤其是当您只有一台服务器时。 #2 或 #3 可以使用单个服务器更高效,还是您只看到多个服务器的强大功能?

是否有任何 python 项目已经适合这种分析?

编辑:最好,我的意思是最快的执行速度,以防止用户等待,而易于编程是次要的

最佳答案

我会使用 celery在单台或多台机器上,使用“即时”策略。您可以有一个聚合任务,用于获取数据,还有一个处理任务,用于分析它们并将它们存储在数据库中。这是一种高度可扩展的方法,您可以根据您的计算能力对其进行调整。

“即时”策略在单次处理数据的意义上更有效。其他两个涉及一个额外的步骤,从您保存数据的位置重新检索数据并在之后处理它们。

当然,一切都取决于数据的性质和处理数据的方式。如果处理阶段比聚合慢,“on-the-fly”策略将挂起并等待处理完成。但同样,您可以将 celery 配置为异步,并在有数据未处理时继续聚合。

关于用于大规模分析的 Python 策略(即时或延迟),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7607348/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com