google-api - 将 50TB 数据从本地 Hadoop 集群迁移到 Google Cloud Storage-6ren

google-api - 将 50TB 数据从本地 Hadoop 集群迁移到 Google Cloud Storage

转载作者：行者123 更新时间：2023-12-04 16:39:06

25

4

我正在尝试将 Hadoop 集群中的现有数据 (JSON) 迁移到 Google Cloud Storage。

我已经探索过 GSUtil，似乎将大数据集移动到 GCS 是推荐的选项。它似乎可以处理巨大的数据集。 GSUtil 似乎只能将数据从本地机器移动到 GCS 或 S3<->GCS，但不能从本地 Hadoop 集群移动数据。

将数据从本地 Hadoop 集群移动到 GCS 的推荐方法是什么？

如果是 GSUtil，它可以直接将数据从本地 Hadoop 集群(HDFS)移动到 GCS 还是首先需要在运行 GSUtil 的机器上复制文件然后传输到 GCS？

使用 Google 客户端 (Java API) 库与 GSUtil 的优缺点是什么？

非常感谢，

最佳答案

问题 1:将数据从本地 Hadoop 集群移动到 GCS 的推荐方法是使用 Google Cloud Storage connector for Hadoop .该站点上的说明主要用于在 Google Compute Engine VM 上运行 Hadoop，但您也可以直接下载 GCS 连接器，gcs-connector-1.2.8-hadoop1.jar如果您使用的是 Hadoop 1.x 或 Hadoop 0.20.x，或 gcs-connector-1.2.8-hadoop2.jar适用于 Hadoop 2.x 或 Hadoop 0.23.x。

只需将 jarfile 复制到您的 hadoop/lib 目录或 $HADOOP_COMMON_LIB_JARS_DIR对于 Hadoop 2:

cp ~/Downloads/gcs-connector-1.2.8-hadoop1.jar /your/hadoop/dir/lib/

如果您运行的是 0.20.x，您可能还需要将以下内容添加到您的 hadoop/conf/hadoop-env.sh 文件中:

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/your/hadoop/dir/lib/gcs-connector-1.2.8-hadoop1.jar

然后，您可能需要使用服务帐户“ key 文件”身份验证，因为您在本地 Hadoop 集群上。访问您的 cloud.google.com/console，查找 APIs & auth在左侧，单击 Credentials , 如果你还没有一键点击 Create new Client ID , 选择 Service account在点击 Create client id 之前，然后现在，连接器需要“.p12”类型的 key 对，所以单击 Generate new P12 key并跟踪下载的 .p12 文件。在将其放置在更容易从 Hadoop 访问的目录中之前重命名它可能会很方便，例如:

cp ~/Downloads/*.p12 /path/to/hadoop/conf/gcskey.p12

将以下条目添加到 Hadoop conf 目录中的 core-site.xml 文件:

<property>
  <name>fs.gs.impl</name>
  <value>com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem</value>
</property>
<property>
  <name>fs.gs.project.id</name>
  <value>your-ascii-google-project-id</value>
</property>
<property>
  <name>fs.gs.system.bucket</name>
  <value>some-bucket-your-project-owns</value>
</property>
<property>
  <name>fs.gs.working.dir</name>
  <value>/</value>
</property>
<property>
  <name>fs.gs.auth.service.account.enable</name>
  <value>true</value>
</property>
<property>
  <name>fs.gs.auth.service.account.email</name>
  <value>your-service-account-email@developer.gserviceaccount.com</value>
</property>
<property>
  <name>fs.gs.auth.service.account.keyfile</name>
  <value>/path/to/hadoop/conf/gcskey.p12</value>
</property>

fs.gs.system.bucket 通常不会使用，除非在某些情况下用于映射临时文件，您可能只想为此目的创建一个新的一次性存储桶。使用主节点上的这些设置，您应该已经能够测试 hadoop fs -ls gs://the-bucket-you-want to-list .此时，您已经可以尝试使用简单的 hadoop fs -cp hdfs://yourhost:yourport/allyourdata gs://your-bucket 将所有数据汇集到主节点之外。 .

如果您想使用 Hadoop 的 distcp 加速它，请将 lib/gcs-connector-1.2.8-hadoop1.jar 和 conf/core-site.xml 同步到所有 Hadoop 节点，它应该都能按预期工作。请注意，无需重新启动数据节点或名称节点。

问题 2:虽然 Hadoop 的 GCS 连接器能够直接从 HDFS 复制而无需额外的磁盘缓冲区，但 GSUtil 不能，因为它无法解释 HDFS 协议(protocol)；它只知道如何处理实际的本地文件系统文件或如您所说的 GCS/S3 文件。

问题 3:使用 Java API 的好处是灵 active ；您可以选择如何处理错误、重试、缓冲区大小等，但这需要更多的工作和计划。使用 gsutil 非常适合快速用例，并且您从 Google 团队继承了许多错误处理和测试。 Hadoop 的 GCS 连接器实际上是直接构建在 Java API 之上的，并且由于它都是开源的，您可以在 GitHub 上的源代码中查看需要哪些东西才能使其顺利运行: https://github.com/GoogleCloudPlatform/bigdata-interop/blob/master/gcs/src/main/java/com/google/cloud/hadoop/gcsio/GoogleCloudStorageImpl.java

关于google-api - 将 50TB 数据从本地 Hadoop 集群迁移到 Google Cloud Storage，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25291397/

25

4

0

文章推荐： sql - 识别数据库中的 sibling

文章推荐： api - Flutter:如何在加载页面之前从 Api 获取数据

文章推荐： python-3.x - 语法错误 : invalid syntax in running python kafka code

文章推荐： opa - 在OPA中生成静态页面

sails.js - 迁移 Sequelize 迁移
我最近开始从事一个 Sails 项目。它目前在迁移表下具有以下格式的迁移。 20160826122004-create_users_table.js 'use strict'; module.expo
symfony - Doctrine :迁移:迁移。元数据存储不是最新的，请运行sync-metadata-storage命令解决这个问题
当我尝试迁移时 doctrine:migrations:migrate ，我收到此异常:“元数据存储不是最新的，请运行 sync-metadata-storage 命令来解决此问题。”。这仅在尝试在生
MarkLogic 迁移
我在 ec2 linux 7 上有一个 MarkLogic 服务器。我想将它迁移到 linux 6。我将 ebs 移动到新的 linux 6 并将其安装在 /var/opt/MarkLogic . 我
OpenID 迁移
我对 OpenID 很好奇。虽然我同意统一凭证的想法很棒，但我有一些保留意见。什么是防止 OpenID 提供商发疯并持有他们拥有的 OpenID 帐户直到您支付 n 美元？如果我决定不喜欢这个提供商，
迁移:在特定列之后添加一列
使用 SQL 很容易做到这一点，但我需要编写一个我不熟悉的 Knex 迁移脚本。以下代码在 order 表中行的末尾添加了 order_id 列。我想在 id 之后添加 order_id。我该怎么做？
迁移:在特定列之后添加一列
使用 SQL 很容易做到这一点，但我需要编写一个我不熟悉的 Knex 迁移脚本。以下代码在 order 表中行的末尾添加了 order_id 列。我想在 id 之后添加 order_id。我该怎么做？
Yii2 迁移 - 在另一列之后添加列
我想通过在 Yii2 中的迁移添加一个新列，使用以下代码: public function up() { $this->addColumn('news', 'priority', $this-
android - SQLDelight 迁移
我正在尝试在 SQLDelight 的表中添加更多列。我做了一个迁移文件 1.sqm .在迁移文件中，它给出了找不到表的错误。我的 build.gradle.kts: sqldelight {
使用单一架构和多个项目进行 Flyway 迁移
我有一个与 Flyway DB 迁移相关的问题。通常如何管理处理相同 DB 模式的多个项目(微服务)。每个项目中的 Flyway 迁移脚本如果被其他项目修改，则不允许启动。他们是否有任何文档或最佳实践
php - 迁移 - 自动创建数据库
我是 Laravel 的新手。我做了一份待办事项申请作为一项学校作业。我们必须使用迁移来创建我们的数据库。我使用迁移创建了 2 个表。我的问题是:如果你第一次在你的电脑上运行这个项目，有没有办法自动
laravel - 迁移:无法添加外键约束
我正在尝试在 Laravel 中创建外键，但是当我使用 artisan 迁移表时，出现以下错误: [Illuminate\Database\QueryException] SQLSTATE[HY000
Django 迁移 - 禁用系统检查
我从 Django 1.7 升级到 Django 1.9。我有多次迁移。升级后我无法再创建新的数据库。问题是“django manage.py migrate”运行检查。检查导入应用程序 URL。这
具有多个数据库的 Django 迁移
我在创建数据迁移方面遇到了困难。我的应用程序使用两个数据库。我在 settings.py 中配置了数据库，并创建了一个像 Django docs 中一样的路由器. # settings.py DB_H
postgresql - 努力与gorm手动创建关系/迁移
我有一个像这样的sql结构: CREATE TABLE resources ( id SERIAL PRIMARY KEY, title TEXT NOT NULL, created_at
Laravel 迁移 - 更新枚举选项
我正在尝试使用模式构建器向表添加枚举选项(不丢失当前数据集)。我真正能够找到的关于列更改的唯一信息是 http://www.flipflops.org/2013/05/25/modify-an-ex
c++ - 迁移 am2cmake
我尝试转移到一些 CMake 程序中，并且有一个从 xml 生成头文件的函数。生成文件.am adaptor_glue.hpp: dbus_introspect.xml $(DBUSXX_X
ios - 迁移 NSPersistentStore
我想将文件移至我的 iOS 应用程序的 CoreData 存储 ../Library/Application Support/MyApp/ 至 ../Documents/Stores/ 我可以使用 N
mysql - NetSuite 迁移
有没有人对数据迁移进出 NetSuite 有丰富的经验？我必须将 DB2 表导出到 MySQL，处理数据，然后导出到一个 CSV 文件中。然后获取帐户的 CSV 文件并再次操作数据以使帐户从我们的旧系
python - Django 迁移
我正在尝试在 Django 上建立一个博客。我已经走到了创建模型的地步。他们在这里: from django.db import models import uuid class Users(mode
html - HTTPS 迁移
我最近使用 bluehost 上的 AutoSSL 工具将网站迁移到 HTTPS。我在内容中看到一些失真，例如缺少背景颜色、表格位移、缺少_logos 等。有谁知道 HTTPS 迁移效果如何影响样式

首页

博学

6Ren·AI

商城

google-api - 将 50TB 数据从本地 Hadoop 集群迁移到 Google Cloud Storage