- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我在一个房地产网站上工作,我们即将获得大约 100 万个列表的外部提要。假设每个列表有约 10 张照片与之关联,即约 1000 万张照片,我们需要将每张图片下载到我们的服务器,以免“热链接”到它们。
我完全不知道如何有效地做到这一点。我玩了一些数字,我得出结论,基于每张图像 0.5 秒的下载速率,这可能需要大约 58 天才能完成(从外部服务器下载大约 1000 万张图像)。这显然是 Not Acceptable 。
每张照片似乎大约为 ~50KB,但这可能会有所不同,有些更大,更大,有些更小。
我一直在通过简单地使用进行测试:
copy(http://www.external-site.com/image1.jpg, /path/to/folder/image1.jpg)
我也尝试过 cURL、wget 和其他。
我知道其他网站也在这样做,而且规模要大得多,但我一点也不知道他们是如何在不花几个月时间的情况下管理这类事情的。
Sudo 代码基于我们设置接收的 XML 提要。我们正在使用 PHP 解析 XML:
<listing>
<listing_id>12345</listing_id>
<listing_photos>
<photo>http://example.com/photo1.jpg</photo>
<photo>http://example.com/photo2.jpg</photo>
<photo>http://example.com/photo3.jpg</photo>
<photo>http://example.com/photo4.jpg</photo>
<photo>http://example.com/photo5.jpg</photo>
<photo>http://example.com/photo6.jpg</photo>
<photo>http://example.com/photo7.jpg</photo>
<photo>http://example.com/photo8.jpg</photo>
<photo>http://example.com/photo9.jpg</photo>
<photo>http://example.com/photo10.jpg</photo>
</listing_photos>
</listing>
所以我的脚本将遍历特定列表的每张照片并将照片下载到我们的服务器,并将照片名称插入我们的照片数据库(插入部分已经完成,没有问题)。
有什么想法吗?
最佳答案
我很惊讶供应商不允许您进行热链接。事实上,您不会每个月都提供每张图片,所以为什么要下载每张图片?允许你热链接是更好地利用每个人的带宽。
我管理一个包含数百万个项目的目录,其中数据是本地的,但图像大部分是热链接的。有时我们需要隐藏图片来源或者厂商要求我们缓存图片。为了实现这两个目标,我们使用代理。我们编写了自己的代理,但您可能会找到满足您需求的开源软件。
代理的工作方式是我们对加密的 URL 字符串进行加密和 URL 编码。所以http://yourvendor.com/img1.jpg变成 xtX957z。在我们的标记中,img src 标签类似于 http://ourproxy.com/getImage.ashx?image=xtX957z。 .
当我们的代理收到图像请求时,它会解密图像 URL。代理首先在磁盘上查找图像。我们从 URL 中导出图像名称,因此它正在寻找类似 yourvendorcom.img1.jpg 的内容。如果代理无法在磁盘上找到图像,则它会使用解密的 URL 从供应商处获取图像。然后它将图像写入磁盘并将其返回给客户端。这种方法的优点是按需提供,不会浪费带宽。我只得到我需要的图像,而且我只得到一次。
关于php - 从外部网站下载数百万张图片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27990937/
我需要为打开的 xlsx 文件取消隐藏工作表 TAB,为此,我使用 VBS 文件打开 xlsm 文件并激活宏(位于模块中)。 当我手动运行宏时,它可以工作。 当它通过vbs激活时,它只能看到包含宏的x
我正在使用 Google Cloud Compute Engine 安装气流并使其保持正常运行。安装很好,现在它在主机上运行:0.0.0.0:8080 我有此 VM 实例的外部 IP 地址,但是我无法
我们可以在 GWT 中使用这个 $entry 方法来允许外部 javascript 执行 java 方法。 你可以在他们的文档 https://developers.google.com/web-to
在 Cython 的“Hello World”和 C 数学库中调用函数的示例之后 here ,我真正想做的是将我自己的 C 代码放在一个单独的文件中,并在 Cython 中使用它。关注 this ,我
我一直在试验 JSON Pointers引用和重用 JSON schemas . 按照示例,我能够引用在另一个 JSON 模式中声明的特定属性,一切都按预期进行,但是我还没有找到一种方法来扩展基本 J
我正在使用 X.jar 并添加到我的 AspectJ 项目(在 eclipse 中)。我已经为 X.jar 中的 myMethod() 方法编写了切入点和建议。 但是aspectj 并没有拦截这个方法
我正在 Controller 中创建一个自定义指令,并在 ng-repeat 中调用它,如下所示: HTML: JS: 在测试指令中,我按如下方式调用 loadDat
我正在尝试加载服务器上本地存在的 HTML 页面,位于名为 HTML-FIles 的文件夹中。 我想使用 jquery 加载一个文件并将其内容显示在 div 中。 现在,我可以加载文件,但在 div
我正在尝试根据初始选择从 JSON 文件生成选择菜单。我见过很多不同的方式,人们为此编写了一个函数,但想要一些非常简单的东西。 HTML: Please select Practis
我的目标是从 HTML 文档中获取文本,该文档不会调用 .jsp 文件中的任何函数。 我环顾四周,我以为我已经找到了问题的答案,但它似乎不起作用,其他答案包括使用 jQuery(我既不熟悉也不允许使用
我正在尝试从外部 JSON 文件获取文件内容,但我一直在警报中收到 null。 JS: function getText() { var result = null; var file
我正在加载一个外部 javascript 文件,该文件仅填充有 int 或字符串或 bool 值或数组的变量。类似... varBool=false; var1="var1"; var2="var2:
我的数据存储在外部 Javascript 文件中。 看起来像这样, window.videos = [{ "name": "Sample data", "duration": 154,
我有一个包含 Google ADWords 的 HTML 页面,以及来自外部 URL 的 ajax 调用,我想获取 json 来自 url 的数据。外部API也是我做的。API Controller
我试图看看是否有一种简单的方法可以通过外部 JavaScript 函数访问 Controller 的内部范围(与目标 Controller 完全无关) 我在这里看到了其他几个问题 angular.el
我尝试在运行外部命令时终止脚本,结果出现错误。考虑这个简单的代码: try { where.exe Test-App } catch { Write-Error "Exception
我在 test.js 中定义了一个外部 JS 函数 function InvokeSupport(ID, TimeStamp, Hash) { var sUrl = '' + "?uid="
如果我想将变量从外部 js 文件提取到另一个外部 js 文件。我该怎么做? 例如,如果我有一个名为 example1.js 的文件,其中包含以下代码 var test = 1; 如何获取变量 tes
我正在尝试使用 java 从外部 jar 中读取文件..例如,我有两个 jar 文件。一个是“foo.jar”,另一个是“bar.jar”。 “bar.jar”内部是文件“foo-bar.txt”。如
在我的 Java 应用程序中,我希望从未实际加载的类文件以及也未加载的 jar 文件中读取字节码内容。理想情况下,我需要能够获取任何给定的 jarfile,并找到其中的所有类。因此,考虑以下情况: 我
我是一名优秀的程序员,十分优秀!