gpt4 book ai didi

php - 从外部网站下载数百万张图片

转载 作者:可可西里 更新时间:2023-11-01 00:31:33 24 4
gpt4 key购买 nike

我在一个房地产网站上工作,我们即将获得大约 100 万个列表的外部提要。假设每个列表有约 10 张照片与之关联,即约 1000 万张照片,我们需要将每张图片下载到我们的服务器,以免“热链接”到它们。

我完全不知道如何有效地做到这一点。我玩了一些数字,我得出结论,基于每张图像 0.5 秒的下载速率,这可能需要大约 58 天才能完成(从外部服务器下载大约 1000 万张图像)。这显然是 Not Acceptable 。

每张照片似乎大约为 ~50KB,但这可能会有所不同,有些更大,更大,有些更小。

我一直在通过简单地使用进行测试:

copy(http://www.external-site.com/image1.jpg, /path/to/folder/image1.jpg)

我也尝试过 cURL、wget 和其他。

我知道其他网站也在这样做,而且规模要大得多,但我一点也不知道他们是如何在不花几个月时间的情况下管理这类事情的。

Sudo 代码基于我们设置接收的 XML 提要。我们正在使用 PHP 解析 XML:

<listing>
<listing_id>12345</listing_id>
<listing_photos>
<photo>http://example.com/photo1.jpg</photo>
<photo>http://example.com/photo2.jpg</photo>
<photo>http://example.com/photo3.jpg</photo>
<photo>http://example.com/photo4.jpg</photo>
<photo>http://example.com/photo5.jpg</photo>
<photo>http://example.com/photo6.jpg</photo>
<photo>http://example.com/photo7.jpg</photo>
<photo>http://example.com/photo8.jpg</photo>
<photo>http://example.com/photo9.jpg</photo>
<photo>http://example.com/photo10.jpg</photo>
</listing_photos>
</listing>

所以我的脚本将遍历特定列表的每张照片并将照片下载到我们的服务器,并将照片名称插入我们的照片数据库(插入部分已经完成,没有问题)。

有什么想法吗?

最佳答案

我很惊讶供应商不允许您进行热链接。事实上,您不会每个月都提供每张图片,所以为什么要下载每张图片?允许你热链接是更好地利用每个人的带宽。

我管理一个包含数百万个项目的目录,其中数据是本地的,但图像大部分是热链接的。有时我们需要隐藏图片来源或者厂商要求我们缓存图片。为了实现这两个目标,我们使用代理。我们编写了自己的代理,但您可能会找到满足您需求的开源软件。

代理的工作方式是我们对加密的 URL 字符串进行加密和 URL 编码。所以http://yourvendor.com/img1.jpg变成 xtX957z。在我们的标记中,img src 标签类似于 http://ourproxy.com/getImage.ashx?image=xtX957z。 .

当我们的代理收到图像请求时,它会解密图像 URL。代理首先在磁盘上查找图像。我们从 URL 中导出图像名称,因此它正在寻找类似 yourvendorcom.img1.jpg 的内容。如果代理无法在磁盘上找到图像,则它会使用解密的 URL 从供应商处获取图像。然后它将图像写入磁盘并将其返回给客户端。这种方法的优点是按需提供,不会浪费带宽。我只得到我需要的图像,而且我只得到一次。

关于php - 从外部网站下载数百万张图片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27990937/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com