file - 将数据中心单个分区上的数十亿个文件迁移到 s3 的最佳方法？-6ren

file - 将数据中心单个分区上的数十亿个文件迁移到 s3 的最佳方法？

转载作者：行者123 更新时间：2023-12-02 08:22:22

24

4

我们有一个带有 10G 直接连接到 AWS 的电路的数据中心。在数据中心，我们有一个 IBM XIV 存储基础架构，其 GPFS 文件系统在单个顶级目录中包含 15 亿个图像(每个大约 5 万个)。我们可以整天争论这有多愚蠢，但我宁愿为我的任务寻求建议，即将所有这些文件移动到一个 s3 存储桶中。

我不能使用任何物理传输解决方案，因为数据中心被物理锁定，并且获得本地物理许可需要 6 个月的时间。

进行此文件迁移的最佳方法是什么？

到目前为止，我最好的想法是在 AWS 中构建 EC2 linux 服务器，使用 s3fs-fuse ( https://github.com/s3fs-fuse/s3fs-fuse/wiki/Fuse-Over-Amazon ) 作为 EC2 服务器上的文件系统安装 s3 目标存储桶，然后在数据中心之间运行一些 netcat + tar 命令持有 GPFS 挂载的服务器和 EC2 服务器。我在另一篇文章中找到了这个建议:
目标框:nc -l -p 2342 | tar -C/目标/目录 -xzf -
源码框:tar -cz/source/dir |数控 Target_Box 2342

在开始一项可能需要一个月的任务之前，我想看看这里是否有人有更好的方法来做到这一点？

最佳答案

如果你有一个月的时间，你正在考虑的可能会奏效......但沿着这条路有陷阱。

为了解释这些，我需要有点哲学。

当面对您想要优化的资源密集型工作时，通常最好找出几个有限资源中的哪一个最适合将其推到极限，然后确保所有其他资源都足够让这种情况发生。有时，您实际上最终将一种资源推向了人为且不必要的限制。

在 1 毫秒内，一条 10 Gbit/s 的链路可以传输 10 Mbits。您浪费的每一毫秒不传输数据都会使作业的运行时间增加更多。因此，您需要保持数据流动……而您的解决方案将无法做到这一点。

S3 每秒可以轻松处理 100 次上传，如果按顺序上传，则每 10 毫秒上传 1 次……而 s3fs 不太可能跟上这一速度，而且每 10 毫秒您就可以通过链接传输 100 Mbits。 ..但你没有。您只管理了 1 个 50k 对象，或者更少。虽然 s3fs 无疑非常酷——我在一个生产后端系统的应用程序中使用它——但它也是理论上最不正确的使用 S3 的方法，因为它试图将 S3 视为文件系统......并将其暴露给具有文件系统语义的操作系统......而 S3 是对象存储，而不是文件系统，并且两者之间存在“阻抗差距”。

这里的人工阻塞点将是 s3fs，它只允许 tar 在任何给定时刻提取一个文件。 tar 的输出将重复阻塞若干微秒或毫秒，等待每个对象上的 s3fs，这将阻塞 tar 从网络的输入，这将阻塞 TCP 连接，这将阻塞源 tar……意味着你实际上不会最大限度地利用您的任何实际资源，因为您达到了不必要的限制。

不要介意如果 s3fs 遇到错误会发生什么。根据错误的性质...

tar: broken pipe

哦。

你真正需要的是并发。将这些文件以 S3 接收它们的速度并行推送到 S3 中。

你最好的选择是在私有(private)数据中心运行代码。将文件列表分成几个 block 。生成多个独立进程(或线程)来处理一大块文件，从磁盘读取并上传到 S3。

如果我这样做(事实上我已经这样做了)，我会编写自己的代码。

但是，您可以使用 aws CLI 的 aws s3 cp 相当轻松地完成此操作。命令与 gnu parallel 结合使用, 可以配置为类似于 xargs -- aws s3 cp 的“n”个并行调用中的每一个被指示复制 parallel 的文件列表从标准输入构建并在命令行中传递。

未经测试，但在正确的轨道上... cd进入文件目录，然后:

  $ ls -1 -f | parallel --eta -m aws s3 cp {} s3://bucket-name

ls -1 -f列出目录中的文件，每行 1 个，仅名称，未排序，输出管道到 parallel .
--eta根据迄今为止的进度估计剩余运行时间。
-m表示替换 {}尽可能多的输入参数，同时不超过 shell 对命令行长度的限制

查看 gnu 的文档 parallel对于其他选项，例如日志文件、错误处理和控制要生成的并行进程的数量(这应该默认为您在运行它的机器中拥有的核心数量)。只要您有可用的处理器容量和内存，您可能希望运行 2 倍、3 倍、4 倍数量的并行作业，因为有内核，否则处理器将浪费大量时间等待网络 I/O。

关于file - 将数据中心单个分区上的数十亿个文件迁移到 s3 的最佳方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35875063/

24

4

0

文章推荐： r - 理货/计数(dplyr)的排序输出

文章推荐： D3.js 在节点选择上突出显示链接

文章推荐： big-o - 两次通过数组 O(n) 或 O(2n)

sails.js - 迁移 Sequelize 迁移
我最近开始从事一个 Sails 项目。它目前在迁移表下具有以下格式的迁移。 20160826122004-create_users_table.js 'use strict'; module.expo
symfony - Doctrine :迁移:迁移。元数据存储不是最新的，请运行sync-metadata-storage命令解决这个问题
当我尝试迁移时 doctrine:migrations:migrate ，我收到此异常:“元数据存储不是最新的，请运行 sync-metadata-storage 命令来解决此问题。”。这仅在尝试在生
MarkLogic 迁移
我在 ec2 linux 7 上有一个 MarkLogic 服务器。我想将它迁移到 linux 6。我将 ebs 移动到新的 linux 6 并将其安装在 /var/opt/MarkLogic . 我
OpenID 迁移
我对 OpenID 很好奇。虽然我同意统一凭证的想法很棒，但我有一些保留意见。什么是防止 OpenID 提供商发疯并持有他们拥有的 OpenID 帐户直到您支付 n 美元？如果我决定不喜欢这个提供商，
迁移:在特定列之后添加一列
使用 SQL 很容易做到这一点，但我需要编写一个我不熟悉的 Knex 迁移脚本。以下代码在 order 表中行的末尾添加了 order_id 列。我想在 id 之后添加 order_id。我该怎么做？
迁移:在特定列之后添加一列
使用 SQL 很容易做到这一点，但我需要编写一个我不熟悉的 Knex 迁移脚本。以下代码在 order 表中行的末尾添加了 order_id 列。我想在 id 之后添加 order_id。我该怎么做？
Yii2 迁移 - 在另一列之后添加列
我想通过在 Yii2 中的迁移添加一个新列，使用以下代码: public function up() { $this->addColumn('news', 'priority', $this-
android - SQLDelight 迁移
我正在尝试在 SQLDelight 的表中添加更多列。我做了一个迁移文件 1.sqm .在迁移文件中，它给出了找不到表的错误。我的 build.gradle.kts: sqldelight {
使用单一架构和多个项目进行 Flyway 迁移
我有一个与 Flyway DB 迁移相关的问题。通常如何管理处理相同 DB 模式的多个项目(微服务)。每个项目中的 Flyway 迁移脚本如果被其他项目修改，则不允许启动。他们是否有任何文档或最佳实践
php - 迁移 - 自动创建数据库
我是 Laravel 的新手。我做了一份待办事项申请作为一项学校作业。我们必须使用迁移来创建我们的数据库。我使用迁移创建了 2 个表。我的问题是:如果你第一次在你的电脑上运行这个项目，有没有办法自动
laravel - 迁移:无法添加外键约束
我正在尝试在 Laravel 中创建外键，但是当我使用 artisan 迁移表时，出现以下错误: [Illuminate\Database\QueryException] SQLSTATE[HY000
Django 迁移 - 禁用系统检查
我从 Django 1.7 升级到 Django 1.9。我有多次迁移。升级后我无法再创建新的数据库。问题是“django manage.py migrate”运行检查。检查导入应用程序 URL。这
具有多个数据库的 Django 迁移
我在创建数据迁移方面遇到了困难。我的应用程序使用两个数据库。我在 settings.py 中配置了数据库，并创建了一个像 Django docs 中一样的路由器. # settings.py DB_H
postgresql - 努力与gorm手动创建关系/迁移
我有一个像这样的sql结构: CREATE TABLE resources ( id SERIAL PRIMARY KEY, title TEXT NOT NULL, created_at
Laravel 迁移 - 更新枚举选项
我正在尝试使用模式构建器向表添加枚举选项(不丢失当前数据集)。我真正能够找到的关于列更改的唯一信息是 http://www.flipflops.org/2013/05/25/modify-an-ex
c++ - 迁移 am2cmake
我尝试转移到一些 CMake 程序中，并且有一个从 xml 生成头文件的函数。生成文件.am adaptor_glue.hpp: dbus_introspect.xml $(DBUSXX_X
ios - 迁移 NSPersistentStore
我想将文件移至我的 iOS 应用程序的 CoreData 存储 ../Library/Application Support/MyApp/ 至 ../Documents/Stores/ 我可以使用 N
mysql - NetSuite 迁移
有没有人对数据迁移进出 NetSuite 有丰富的经验？我必须将 DB2 表导出到 MySQL，处理数据，然后导出到一个 CSV 文件中。然后获取帐户的 CSV 文件并再次操作数据以使帐户从我们的旧系
python - Django 迁移
我正在尝试在 Django 上建立一个博客。我已经走到了创建模型的地步。他们在这里: from django.db import models import uuid class Users(mode
html - HTTPS 迁移
我最近使用 bluehost 上的 AutoSSL 工具将网站迁移到 HTTPS。我在内容中看到一些失真，例如缺少背景颜色、表格位移、缺少_logos 等。有谁知道 HTTPS 迁移效果如何影响样式

首页

博学

6Ren·AI

商城

file - 将数据中心单个分区上的数十亿个文件迁移到 s3 的最佳方法？