gpt4 book ai didi

java - 使用AWS EC2将大量文件放入S3存储桶中

转载 作者:行者123 更新时间:2023-11-30 02:27:30 25 4
gpt4 key购买 nike

我正在尝试将大量文件(约 50 TB)下载到 S3 存储桶中。问题是这些文件只能通过网站上的各种下载链接访问(它们尚未在我的硬盘上)。我可以直接下载一小部分数据到我自己电脑的硬盘上,上传到S3存储桶,从我的硬盘上删除它,然后重复另一部分,但我担心这样做会花费时间太长并且使用太多带宽。相反,我希望我可以使用 EC2 实例来做同样的事情,就像这个 question 的回答者一样。建议,但我在如何用 Java 来做这件事时遇到了麻烦。

使用 Java,请求和启动 EC2 实例似乎非常清楚;然而,实际使用该实例会变得有点模糊。据我所知,您可以使用 EC2 管理控制台直接连接到实例,我可以在连接到实例时手动运行一个脚本来下载和上传文件,但我更喜欢从我的计算机运行一个脚本来创建EC2 实例,然后使用该实例来实现我的目标。这是因为稍后在我的项目中,我将每天从同一个网站下载文件,并且使用计算机上的 Windows 计划任务管理器来运行脚本比让 EC2 实例 24/7 运行并每天执行要便宜那里。

简单来说,如何使用Java来使用EC2实例?

最佳答案

您的解决方案需要两个不同的阶段:

  1. 获取要下载的文件列表
  2. 下载文件

我建议将这两项任务分开,因为列出文件的逻辑中的错误可能会中途停止下载过程,一旦问题得到纠正,就很难恢复。

列出文件可能最好在本地计算机上完成,这样可以轻松调试和跟踪进度。结果将是一个包含大量链接的文本文件。 (这在概念上与许多scraper实用程序类似。)

第二部分(下载文件)可以在 Amazon EC2 上或通过 AWS Lambda 函数完成。

使用 Amazon EC2

这将是一个简单的应用程序,读取您的文本文件,循环链接并下载文件。如果这是一次性要求,我不会投入太多时间来研究应用程序的多线程。但是,这意味着您将无法充分利用网络带宽,并且 Amazon EC2 按小时收费。

因此,我建议使用相当小的实例类型(每个实例类型的网络带宽都有限,可能会导致饱和),但并行运行多个实例,每个实例都有一部分您的文本文件列表。这样你就可以分而治之

如果中途出现问题,您可以随时调整代码,手动编辑文本文件以删除已完成的条目,然后继续。这是相当快速和肮脏的,但如果这只是一次性要求,那就没问题了。

此外,我建议使用 Amazon EC2 Spot Instances ,可以节省高达90%的Amazon EC2成本。如果现货价格上涨,则存在实例被终止的风险,这将导致您需要做一些额外的工作来确定在哪里恢复,因此只需出价等于正常的按需价格,并且不太可能(但不能保证) )您的实例不会被终止。

使用 AWS Lambda 函数

每个 AWS Lambda 函数只能运行最多 5 分钟,并且只能在本地存储500MB 数据。幸运的是,函数可以并行运行。

因此,要使用 AWS Lambda,您需要编写一个控制应用程序,为列表中的每个文件调用 AWS Lambda 函数。如果任何文件超过 500MB,则需要特殊处理。

对于一次性任务来说,编写、调试和监视这样的并行分布式应用程序可能不值得。调试任何问题并从错误中恢复会更加困难。 (但是,如果您对此过程有持续的业务需求,那么这将是进行连续下载的理想方式。)

底线:我建议在本地计算机上编写和调试下载器应用程序(包含一小部分测试文件),然后使用并行运行的多个 Amazon EC2 Spot 实例来下载文件并将它们上传到 Amazon S3。从一个实例和一个小列表开始测试设置,然后与更大的列表并行。玩得开心!

关于java - 使用AWS EC2将大量文件放入S3存储桶中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45270457/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com