php - 使用 PHP 并行下载页面-6ren

php - 使用 PHP 并行下载页面

转载作者：可可西里更新时间：2023-11-01 12:50:04

24

4

我必须废弃一个网站，我需要在其中获取多个 URL，然后一个一个地处理它们。目前的过程有点像这样。

我获取一个基本 URL 并从此页面获取所有辅助 URL，然后对于每个辅助 URL，我获取该 URL，处理找到的页面，下载一些照片(这需要很长时间)并将这些数据存储到数据库，然后获取下一个 URL 并重复该过程。

在这个过程中，我认为我在每次迭代开始时都在浪费一些时间来获取辅助 URL。所以我试图在处理第一次迭代时并行获取下一个 URL。

我想到的解决方案是，从主进程调用一个 PHP 脚本，比如下载器，它将下载所有 URL(使用 curl_multi 或 wget)并存储它们在一些数据库中。

我的问题是

如何异步调用此类下载器，我不希望我的主脚本等到下载器完成。
存储下载数据的任何位置，例如共享内存。当然，数据库除外。
数据在存储和检索时有可能损坏，如何避免？
另外，如果有人有更好的计划，请指导我。

最佳答案

当我听说有人使用 curl_multi_exec 时，通常结果是他们只是用 100 个 url 加载它，然后等待所有完成，然后处理所有这些，然后从下一个 100 个 url 重新开始......怪我，我也是这样做的，但后来我发现可以在某些事情仍在进行时删除/添加 curl_multi 的句柄，而且它确实节省了很多时间，特别是如果您重用已经打开的连接。我写了一个小库来处理带有回调的请求队列；我当然不会在这里发布完整版本(“小”仍然是相当多的代码)，但这里有一个主要内容的简化版本，可以为您提供总体思路:

public function launch() {
    $channels = $freeChannels = array_fill(0, $this->maxConnections, NULL);
    $activeJobs = array();
    $running = 0;
    do {
        // pick jobs for free channels:
        while ( !(empty($freeChannels) || empty($this->jobQueue)) ) {
            // take free channel, (re)init curl handle and let
            // queued object set options
            $chId = key($freeChannels);
            if (empty($channels[$chId])) {
                $channels[$chId] = curl_init();
            }
            $job = array_pop($this->jobQueue);
            $job->init($channels[$chId]);
            curl_multi_add_handle($this->master, $channels[$chId]);
            $activeJobs[$chId] = $job;
            unset($freeChannels[$chId]);
        }
        $pending = count($activeJobs);

        // launch them:
        if ($pending > 0) {
            while(($mrc = curl_multi_exec($this->master, $running)) == CURLM_CALL_MULTI_PERFORM);
                // poke it while it wants
            curl_multi_select($this->master);
                // wait for some activity, don't eat CPU
            while ($running < $pending && ($info = curl_multi_info_read($this->master))) {
                // some connection(s) finished, locate that job and run response handler:
                $pending--;
                $chId = array_search($info['handle'], $channels);
                $content = curl_multi_getcontent($channels[$chId]);
                curl_multi_remove_handle($this->master, $channels[$chId]);
                $freeChannels[$chId] = NULL;
                    // free up this channel
                if ( !array_key_exists($chId, $activeJobs) ) {
                    // impossible, but...
                    continue;
                }
                $activeJobs[$chId]->onComplete($content);
                unset($activeJobs[$chId]);
            }
        }
    } while ( ($running > 0 && $mrc == CURLM_OK) || !empty($this->jobQueue) );
}

在我的版本中，$jobs 实际上属于单独的类，而不是 Controller 或模型的实例。他们只处理设置 cURL 选项、解析响应并调用给定的回调 onComplete。使用这种结构，新请求将在池中的某些内容完成后立即开始。

当然，如果不仅检索需要时间而且处理也需要时间，那么它并不能真正为您节省时间……而且这不是真正的并行处理。但我仍然希望它有所帮助。 :)

附言对我做了个把戏。 :) 现在使用 50 个连接池可在 3-4 分钟内完成一次 8 小时的工作。无法形容那种感觉。 :) 我真的不希望它按计划工作，因为使用 PHP 它很少能完全按预期工作......就像“好的，希望它至少在一个小时内完成......哇......等等...... . 已经？!8-O”

关于php - 使用 PHP 并行下载页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9233356/

24

4

0

文章推荐： html - 悬停不适用于 AJAX

文章推荐： php - Apache mod_deflate 不压缩 json 输出

文章推荐： html - Chrome : Div has white line in center

文章推荐： PHPMailer 5.1 在添加超过 1 个收件人时发送重复的电子邮件

c# - 文件正在通过 visual studio 下载，而不是通过 .exe 下载
当我尝试通过我的 .exe 文件从 url 下载 .pdf 文件时出现以下错误。 The server committed a protocol violation. Section=Response
google-cloud-platform - 从 G Suite 下载 Google 外卖从 Google Cloud Storage 下载
我是一家非营利组织的 G Suite 管理员，刚刚发现数据导出功能，这似乎是个人帐户的外卖。导出文件已准备好，现在可以从 Google Cloud Platform Storage 中的存储桶下载。
七牛云私有空间图片上传、下载
导航引言总体思路七牛云相关的配置文件获取七牛云上传token 相关类定义核心代码实现获取七牛云图片下载链接公开空
下载 PDF 而不是在新标签页中打开
这不是后端编程问题。我只能修改标记或脚本(或文档本身)。我在这里问的原因是因为我对适当术语的所有搜索都不可避免地导致有关编程此功能的问题和解决方案。我不是试图通过编程来强制它；我必须找出此 PDF 行
AdSense SDK 下载
您好，我已在 Google AdSense 中注册，我想使用适用于 iOS 的 SDK，但目前我找不到 SDK 下载链接。我的申请已获批准。任何人都知道如何下载这个sdk。我使用这个链接来描述如
github 下载 - 只能是平面文件系统吗？
我需要为当前在 SourceForge 上的 github 项目提供二进制文件和文档。在那里，我可以为我需要的下载提供一个目录结构，因为我必须为大约 10 个不同的操作系统提供几个版本。 github
JavaScript Canvas 下载
我从 Canvas 下载绘图时遇到问题。这是我的代码: function downloadCanvas(link, canvasId, filename) { link.href =
特定用户的 Azure 下载
ASP.NET 项目我将使用 Azure 进行存储。问题(要求): 在我的项目中，我让注册用户下载文件。但我不希望用户将此下载链接分享给未注册的人(例如:我给注册用户的下载链接只能在他们的计算机上下
Java Servlet 下载
我编写了一个servlet，用于检查http header ，但我不知道为什么当页面加载时，它会自动开始下载。 /* * To change this template, choose To
JavaFX WebView 下载
我正在尝试将下载添加到我的网络浏览器，但遇到的问题是获取您尝试下载的文件的名称。这是我的下载代码: engine.locationProperty().addListener(new ChangeLi
Java 下载 html
我正在尝试下载网站的 html: String encoding = "UTF-8"; HttpContext localContext = new BasicHttpContext();
java - 为什么当我开始此操作时我的框架会卡住[下载]
我制作了一个带有“开始下载”按钮的框架，用于从网站下载 JAR。问题是每当我点击开始下载按钮时，整个框架就会卡住，直到下载完成，然后就正常了。我该如何解决这个问题？这是单击按钮时执行的代码 p
iOS NSURLSession 下载
我得到这段代码来实现一些东西，它可以帮助我从给定的 URL 下载文件。 -(void)URLSession:(NSURLSession *)session downloadTask:(NSURLSes
java - 流媒体上传/下载
我正在尝试创建一个 Controller 来使用流方法下载和上传文件，在我的例子中，所有文件都作为 Blob 保存在数据库中。我阅读了 Jboss Netty 的文档，但我认为这不是我的最佳解决方案。
下载 Alamofire 后快速保存文件
下载并保存文件 let destination: DownloadRequest.DownloadFileDestination = { _, _ in // var fileURL = sel
html - htaccess访问/下载
使用 htaccess 我基本上试图禁止访问该页面，即 http://example.com , 但它仍然允许人们下载文件，如果他们有直接链接即 http://example.com/hi.zip .
Linux - 下载/解压脚本
我正在寻求将脚本与我的控制面板集成，并且由于我是新手脚本编写者而遇到问题。我想做的是用 1 个脚本下载一个文件并解压它。示例: wget http://example.com/example.tar
android ffmpeg .so 下载
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
php - 如何保护网站免受批量抓取/下载？
这个问题在这里已经有了答案: Top techniques to avoid 'data scraping' from a website database (14 个答案) 关闭 5 年前。我有
Python-Gmail邮件检索/下载
这个问题在这里已经有了答案: Reading and parsing email from Gmail using C#, C++ or Python (6 个答案) 关闭 7 年前。我只是想，是

首页

博学

6Ren·AI

商城

php - 使用 PHP 并行下载页面