- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将大量文件(约 50 TB)下载到 S3 存储桶中。问题是这些文件只能通过网站上的各种下载链接访问(它们尚未在我的硬盘上)。我可以直接下载一小部分数据到我自己电脑的硬盘上,上传到S3存储桶,从我的硬盘上删除它,然后重复另一部分,但我担心这样做会花费时间太长并且使用太多带宽。相反,我希望我可以使用 EC2 实例来做同样的事情,就像这个 question 的回答者一样。建议,但我在如何用 Java 来做这件事时遇到了麻烦。
使用 Java,请求和启动 EC2 实例似乎非常清楚;然而,实际使用该实例会变得有点模糊。据我所知,您可以使用 EC2 管理控制台直接连接到实例,我可以在连接到实例时手动运行一个脚本来下载和上传文件,但我更喜欢从我的计算机运行一个脚本来创建EC2 实例,然后使用该实例来实现我的目标。这是因为稍后在我的项目中,我将每天从同一个网站下载文件,并且使用计算机上的 Windows 计划任务管理器来运行脚本比让 EC2 实例 24/7 运行并每天执行要便宜那里。
简单来说,如何使用Java来使用EC2实例?
最佳答案
您的解决方案需要两个不同的阶段:
我建议将这两项任务分开,因为列出文件的逻辑中的错误可能会中途停止下载过程,一旦问题得到纠正,就很难恢复。
列出文件可能最好在本地计算机上完成,这样可以轻松调试和跟踪进度。结果将是一个包含大量链接的文本文件。 (这在概念上与许多scraper实用程序类似。)
第二部分(下载文件)可以在 Amazon EC2 上或通过 AWS Lambda 函数完成。
使用 Amazon EC2
这将是一个简单的应用程序,读取您的文本文件,循环链接并下载文件。如果这是一次性要求,我不会投入太多时间来研究应用程序的多线程。但是,这意味着您将无法充分利用网络带宽,并且 Amazon EC2 按小时收费。
因此,我建议使用相当小的实例类型(每个实例类型的网络带宽都有限,可能会导致饱和),但并行运行多个实例,每个实例都有一部分您的文本文件列表。这样你就可以分而治之。
如果中途出现问题,您可以随时调整代码,手动编辑文本文件以删除已完成的条目,然后继续。这是相当快速和肮脏的,但如果这只是一次性要求,那就没问题了。
此外,我建议使用 Amazon EC2 Spot Instances ,可以节省高达90%的Amazon EC2成本。如果现货价格上涨,则存在实例被终止的风险,这将导致您需要做一些额外的工作来确定在哪里恢复,因此只需出价等于正常的按需价格,并且不太可能(但不能保证) )您的实例不会被终止。
使用 AWS Lambda 函数
每个 AWS Lambda 函数只能运行最多 5 分钟,并且只能在本地存储500MB 数据。幸运的是,函数可以并行运行。
因此,要使用 AWS Lambda,您需要编写一个控制应用程序,为列表中的每个文件调用 AWS Lambda 函数。如果任何文件超过 500MB,则需要特殊处理。
对于一次性任务来说,编写、调试和监视这样的并行分布式应用程序可能不值得。调试任何问题并从错误中恢复会更加困难。 (但是,如果您对此过程有持续的业务需求,那么这将是进行连续下载的理想方式。)
底线:我建议在本地计算机上编写和调试下载器应用程序(包含一小部分测试文件),然后使用并行运行的多个 Amazon EC2 Spot 实例来下载文件并将它们上传到 Amazon S3。从一个实例和一个小列表开始测试设置,然后与更大的列表并行。玩得开心!
关于java - 使用AWS EC2将大量文件放入S3存储桶中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45270457/
这个问题在这里已经有了答案: Why don't Java's +=, -=, *=, /= compound assignment operators require casting? (11 个
我搜索了很多,但没有一个链接能帮助我解决这个问题。我得到了 ORA-21500: internal error code, arguments: [%s], [%s], [%s], [%s], [%s
我正在做 RegexOne 正则表达式教程,它有一个 question关于编写正则表达式以删除不必要的空格。 教程中提供的解决方案是 We can just skip all the starting
([\s\S]+|\s?) 中 |\s? 的目的或作用是什么?如果没有它,表达式会不会与 ([\s\S]+) 相同? 最佳答案 这不是完全相同的。 ([\s\S]+|\s?) 会匹配空字符串,而 ([
这个正则表达式有一组还是两组? 我正在尝试使用第二组访问 bookTitle 但出现错误: Pattern pattern = Pattern.compile("^\\s*(.*?)\\s+-\\s+
在 C 中给定一个字符串指针 s,下面的迭代会做什么?即它以什么方式遍历字符串? for (++s ; *s; ++s); 最佳答案 for (++s ; *s;++s) 表示 将指针 s 递增到字符
我正在用一个 node.js 应用程序解析一个大列表并有这段代码 sizeCode = dbfr.CN_DESC.split('\s+-\s*|\s*-\s+') 这似乎不起作用,因为它返回了 [ '
我正在编写一个简单的字符串连接程序。 该程序按照我发布的方式运行。但是,我首先使用以下代码编写它来查找字符串的结尾: while (*s++) ; 但是,这个方法并没有奏效。我传递给它的字符串
这个问题已经有答案了: What does (?和aramchand来自Mohandas Karamchand G 因此,在使用这些匹配来分割字符串后,您最终会得到 {"M", "K", "G"} 注
我正在尝试转换 Map到 List使用 lambda。 本质上,我想将键和值与 '=' 连接起来之间。这看起来微不足道,但我找不到如何去做。 例如 Map map = new HashMap<>();
我正在经历 K & R,并且在递增指针时遇到困难。练习 5.3(第 107 页)要求您使用指针编写一个 strcat 函数。 在伪代码中,该函数执行以下操作: 将 2 个字符串作为输入。 找到字符串
在下面的代码中,pS 和 s.pS 在最后一行是否保证相等?也就是说,在语句S s = S();中,是否可以确定不会构造一个临时的S? #include using namespace std; s
演示示例代码: public void ReverseString(char[] s) { for(int i = 0, j = s.Length-1; i < j; i++, j--){
我一直在寻找类似于 .NET examples 中的示例的 PowerShell 脚本.取一个 New-TimeSpan 并显示为 1 天 2 小时 3 分钟 4 秒。排除其零的地方,在需要的地方添加
def func(s): s = s + " is corrected" return s string_list = ["She", "He"] for s in string_li
我是 python 的新手。当我在互联网上搜索 lambda 时。我在 lambda_functions 中找到了这个声明. processFunc = collapse and (lambda s:
我最近开始学习正则表达式,并试图为上面的问题写一个正则表达式。如果限制只放在一个字母上(例如不超过 2 个“b”),这并不困难。 那么答案就是:a* c*(b|ε)a* c*(b|ε)a* c* 但是
当我运行 npm install 时出现以下错误,但我无法修复它。 我试过:npm install -g windows-build-tools 也没有修复这个错误 ERR! configure
有很多有趣的haskell网上可以找到片段。 This post可以在 this (awesome) Stack Overflow question 下找到. The author写道: discou
我知道以下三行代码旨在将字符串提取到$ value中并将其存储在$ header中。但是我不知道$value =~ s/^\s+//;和$value =~ s/\s+$//;之间有什么区别。 $val
我是一名优秀的程序员,十分优秀!