gpt4 book ai didi

php - 如何扩展数据库/CPU 密集型脚本?

转载 作者:太空宇宙 更新时间:2023-11-03 12:16:53 26 4
gpt4 key购买 nike

我目前有一个 PHP 脚本,它从各种来源收集类似的数据,每个数据源每 120 秒被抓取和解析一次。目前我有 20 个数据源,但我希望在接下来的几周内再整合 100 个。

目前每个数据源都在它自己的线程中被抓取,有一个主要的 PHP 脚本将执行其他脚本来执行抓取工作。这种方法允许同时抓取所有源,但它也会给服务器带来压力,并对数据库 (MySQL) 造成瓶颈。

我正在寻找一种方法来扩展我当前的应用程序,我可以使用 AWS 做这样的事情吗?也许这些抓取脚本中的每一个都可以在它们自己的小型服务器实例中运行,这些实例中的每一个都将由“主”实例自动创建,然后在脚本完成后死亡。我没有任何使用 AWS 的经验,所以我不完全确定这是否可行,或者这可能只是一个坏主意。

这里的主要问题是:如何扩展我当前的抓取脚本以允许许多新数据源?我对任何解决方案都感兴趣,即使我需要购买额外的服务也是如此。

最佳答案

你需要一个排队系统

您正在描述一种工作人员/队列模式,您的主服务器同时执行入队和工作人员执行,这当然会给您的服务器带来巨大压力。

首先,您的工作人员需要异步:您不应该等待可能会或可能不会回来的事情。你真的应该看看ZeroMQ我可能会补充说,其中包含一些地球上最好的文档。如果您愿意学习,请查看其工作原理并遵循一些教程,那里有很多教程。让您的队列接受新工作并将其他工作分派(dispatch)到其他地方(即其他盒子)托管在您的主服务器上。

水平缩放

您可以创建某种实例 Controller 来处理 AWS 实例。你真的只需要坐下来思考你的逻辑(我什么时候想要这么多盒子,我什么时候想要关闭它们)。一旦您了解了 API,它就非常易于使用。 Here's some code我写了一段时间来包装亚马逊的 SDK for PHP .我不确定它是否 100% 与最新版本一起工作(我大约一年前使用它),但概念是存在的 - 你有简单的方法,如 startBox()stopBox () 你从你的队列中调用,并让你的盒子在启动后自动开始做它的事情。

您可以使用亚马逊的 t1.micro 实例 pricing here ,它有一个免费套餐 info here达到一定限度。

让它正常工作,在你的主服务器上有一个循环来决定在特定情况下你在任何时候需要工作多少个盒子(例如,你的数据库表中的工作数量),理论上你将有无限的缩放。以下是我为我的代码所做的:

  • 第 1 层:> 5 个职位,< 10 个职位 = 1 个盒子
  • 第 2 层:> 10 个职位,< 20 个职位 = 2 个盒子
  • 等等

建议

记录一切。记录每一个出现的箱子,每一个掉落的箱子。 在您的代码中计算您的成本并将它们存储在数据库中,或者记录它们,这样您就可以确切地知道您花费了多少——您不希望事情失控。

确保打开您的数据库端口,以便您的实例可以与您的数据库对话,告知工作何时完成或您需要在“主”框和“从”框之间传递的任何其他信息。

此外,如果您为 Web 服务器付费,您将使用 aws 支付小时的费用,因此您需要了解启动盒子的时间以及关闭时间关闭,仅在 55 分钟左右后才真正关闭它 - 您还不如花钱获得这些额外的分钟数。

我真的想不出别的了。进行研究,找出构建排队系统的最佳方法,并在构建时考虑到可扩展性(它可以对您控制的数字使用react和更改)。

关于php - 如何扩展数据库/CPU 密集型脚本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21733084/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com