hadoop - Hadoop 2.4.1和适用于Hadoop的Google Cloud Storage连接器-6ren

hadoop - Hadoop 2.4.1和适用于Hadoop的Google Cloud Storage连接器

转载作者：行者123 更新时间：2023-12-02 18:36:05

我正在尝试使用Google的Hadoop云存储连接器在Hadoop之上运行Oryx:
https://cloud.google.com/hadoop/google-cloud-storage-connector

我更喜欢将Hadoop 2.4.1与Oryx一起使用，因此我将hadoop2_env.sh设置用于在Google计算引擎上创建的hadoop集群，例如:

.bdutil -b <BUCKET_NAME> -n 2 --env_var_files hadoop2_env.sh \
--default_fs gs --prefix <PREFIX_NAME> deploy

当我尝试使用hadoop运行oryx时，我面临两个主要问题。

1)尽管确认我的hadoop conf目录与计算引擎上的google安装预期的匹配，例如:

$ echo $HADOOP_CONF_DIR
/home/hadoop/hadoop-install/etc/hadoop

我仍然发现某些内容正在寻找/ conf目录，例如:

Caused by: java.lang.IllegalStateException: Not a directory: /etc/hadoop/conf

我的理解是../etc/hadoop应该是/ conf目录，例如:
hadoop: configuration files

而且虽然我不需要进行任何更改，但是只有将配置文件复制到新创建的目录中后，此问题才能解决，例如:

sudo mkdir /etc/hadoop/conf
sudo cp /home/hadoop/hadoop-install/etc/hadoop/* /etc/hadoop/conf

那为什么呢？这是使用Google hadoop连接器的结果吗？

2)“解决”上述问题后，我发现了其他错误(在我看来)与hadoop集群与google文件系统之间的通信有关:

2014年10月1日星期三20:18:30警告无法使用适用于的内置Java类为平台加载本机Hadoop库...

2014年10月1日星期三20:18:30 UTC INFO命名空间前缀:hdfs:// BUCKET_NAME

2014年10月1日星期三20:18:30 UTC SEVERE执行中发生意外错误
java.lang.ExceptionInInitializerError
在com.cloudera.oryx.common.servcomp.StoreUtils.listGenerationsForInstance(StoreUtils.java:50)
在com.cloudera.oryx.computation.PeriodicRunner.run(PeriodicRunner.java:173)
在java.util.concurrent.Executors $ RunnableAdapter.call(Executors.java:471)
在java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304)
在java.util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.access $ 301(ScheduledThreadPoolExecutor.java:178)
在java.util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
在java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
在java.util.concurrent.ThreadPoolExecutor $ Worker.run(ThreadPoolExecutor.java:615)
在java.lang.Thread.run(Thread.java:745)
引起原因:java.lang.IllegalArgumentException:java.net.UnknownHostException:阻力预测
在org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:373)
在org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:258)
在org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:153)
在org.apache.hadoop.hdfs.DFSClient。(DFSClient.java:602)
在org.apache.hadoop.hdfs.DFSClient。(DFSClient.java:547)
在org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:139)
在org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)
在org.apache.hadoop.fs.FileSystem.access $ 200(FileSystem.java:89)
在org.apache.hadoop.fs.FileSystem $ Cache.getInternal(FileSystem.java:2625)
在org.apache.hadoop.fs.FileSystem $ Cache.get(FileSystem.java:2607)
在org.apache.hadoop.fs.FileSystem.get(FileSystem.java:368)
在com.cloudera.oryx.common.servcomp.Store。(Store.java:76)
在com.cloudera.oryx.common.servcomp.Store。(Store.java:57)
...另外9个

引起原因:java.net.UnknownHostException:BUCKET_NAME
...另外22个

与我似乎相关的是，当我将默认文件系统设置为gs://时， namespace 前缀为hdfs://

也许这导致了UnkownHostException？

请注意，我已“确认” hadoop群集已连接到google文件系统，例如:
hadoop fs -ls
产生我的Google云存储桶的内容以及gs:// BUCKET_NAME目录的所有预期内容。但是，我不熟悉通过hadoop连接器在hadoop上的google表现形式，以及我通常测试以查看hadoop集群是否正在运行的传统方式，即:
jps
只有产量
6440 Jps
而不是列出所有节点。但是，我是从hadoop集群的主节点(即PREFIX_NAME-m)运行此命令的，对于将Google云存储连接器用于hadoop时，我不确定预期的输出。

那么，如何解决这些错误并使我的oryx作业(通过hadoop)成功访问gs:// BUCKET_NAME目录中的数据？

在此先感谢您的见解或建议。

更新:
感谢您的非常详细的回复。作为解决方法，我通过更改将gs://硬编码到oryx中:

  prefix = "hdfs://" + host + ':' + port;
} else {
  prefix = "hdfs://" + host;

至:

  prefix = "gs://" + host + ':' + port;
} else {
  prefix = "gs://" + host;

我现在收到以下错误:

2014年10月14日星期二20:24:50 UTC SEVERE执行中发生意外错误
java.lang.ExceptionInInitializerError
在com.cloudera.oryx.common.servcomp.StoreUtils.listGenerationsForInstance(StoreUtils.java:50)
在com.cloudera.oryx.computation.PeriodicRunner.run(PeriodicRunner.java:173)
在java.util.concurrent.Executors $ RunnableAdapter.call(Executors.java:471)
在java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304)
在java.util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.access $ 301(ScheduledThreadPoolExecutor.java:178)
在java.util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
在java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
在java.util.concurrent.ThreadPoolExecutor $ Worker.run(ThreadPoolExecutor.java:615)
在java.lang.Thread.run(Thread.java:745)

原因:java.lang.RuntimeException:java.lang.ClassNotFoundException:找不到类com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem
在org.apache.hadoop.conf.Configuration.getClass(Configuration.java:1905)
在org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2573)
在org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2586)
在org.apache.hadoop.fs.FileSystem.access $ 200(FileSystem.java:89)
在org.apache.hadoop.fs.FileSystem $ Cache.getInternal(FileSystem.java:2625)
在org.apache.hadoop.fs.FileSystem $ Cache.get(FileSystem.java:2607)
在org.apache.hadoop.fs.FileSystem.get(FileSystem.java:368)
在com.cloudera.oryx.common.servcomp.Store。(Store.java:76)
在com.cloudera.oryx.common.servcomp.Store。(Store.java:57)

按照此处的指示信息: https://cloud.google.com/hadoop/google-cloud-storage-connector#classpath我相信我已将连接器jar添加到Hadoop的类路径中；我补充说:

HADOOP_CLASSPATH=$HADOOP_CLASSPATH:'https://storage.googleapis.com/hadoop-lib/gcs/gcs-connector-1.2.9-hadoop2.jar

到/home/rich/hadoop-env-setup.sh。和(echo $ HADOOP_CLASSPATH)产生:

/contrib/capacity-scheduler/.jar:/home/hadoop/hadoop-install/share/hadoop/common/lib/gcs-connector-1.2.9-hadoop2.jar:/contrib/capacity-scheduler/.jar:/主页/ hadoop / hadoop安装/共享/hadoop/common/lib/gcs-connector-1.2.9-hadoop2.jar

我是否需要在类(class)路径中添加更多内容？

我还注意到(可能与之相关)即使使用导出命令，我仍然会收到/ etc / hadoop / conf的错误。我一直在使用sudo mkdir / etc / hadoop / conf作为临时解决方法。我在这里提到这个，以防它可能导致其他问题。

最佳答案

似乎有几个问题。首先，通常，当事物在hadoop jar下运行时，hadoop将各种系统环境变量和类路径等注入(inject)正在运行的程序中；在您的情况下，由于Oryx无需使用hadoop jar即可运行，而是使用类似以下内容的代码:

java -Dconfig.file=oryx.conf -jar computation/target/oryx-computation-x.y.z.jar

那么 $HADOOP_CONF_DIR实际上并没有进入环境，因此 System.getenv in OryxConfiguration.java无法将其接收，并使用默认的 /etc/hadoop/conf值。只需使用 export命令即可解决此问题，可以通过查看是否将其放入子shell进行测试:

echo $HADOOP_CONF_DIR
bash -c 'echo $HADOOP_CONF_DIR'
export HADOOP_CONF_DIR
bash -c 'echo $HADOOP_CONF_DIR'
java -Dconfig.file=oryx.conf -jar computation/target/oryx-computation-x.y.z.jar

第二个也是更不幸的问题是，Oryx出现在 hard-code 'hdfs'上，而不是允许用户设置的任何文件系统方案:

private Namespaces() {
  Config config = ConfigUtils.getDefaultConfig();
  boolean localData;
  if (config.hasPath("model.local")) {
    log.warn("model.local is deprecated; use model.local-data");
    localData = config.getBoolean("model.local");
  } else {
    localData = config.getBoolean("model.local-data");
  }
  if (localData) {
    prefix = "file:";
  } else {
    URI defaultURI = FileSystem.getDefaultUri(OryxConfiguration.get());
    String host = defaultURI.getHost();
    Preconditions.checkNotNull(host,
        "Hadoop FS has no host? Did you intent to set model.local-data=true?");
    int port = defaultURI.getPort();
    if (port > 0) {
      prefix = "hdfs://" + host + ':' + port;
    } else {
      prefix = "hdfs://" + host;
    }
  }
  log.info("Namespace prefix: {}", prefix);
}

这完全取决于Oryx将来是否打算增加对其他文件系统方案的支持，但与此同时，您要么必须自己更改Oryx代码并重新编译，要么可以尝试破解它(但可能会产生碎片)对HDFS有严格依赖性的Oryx失败)。

从理论上讲，对Oryx的更改应为:

    String scheme = defaultURI.getScheme();
    if (port > 0) {
      prefix = scheme + "://" + host + ':' + port;
    } else {
      prefix = scheme + "://" + host;
    }

但是，如果您确实走这条路，请记住 eventual list consistency semantics of GCS，在该处，多阶段工作流一定不能依靠“列表”操作来立即找到上一阶段的所有输出。羚羊可能有也可能没有这种依赖性。

在您的情况下，最可靠的解决方案是使用 --default_fs hdfs进行部署，其中bdutil仍将安装gcs-connector，以便您可以运行 hadoop distcp将数据从GCS临时移至HDFS，运行Oryx，然后在完成后将其复制回进入GCS。

关于hadoop - Hadoop 2.4.1和适用于Hadoop的Google Cloud Storage连接器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26150155/

文章推荐： docker - Docker Windows容器和NFS卷

文章推荐： javascript - 针对特定情况实现每个子项

文章推荐： javascript - 使用外部 API 和 Salesforce 自动完成字段

文章推荐： docker - 具有多个子域的 Traefik 和具有子路径的 URL

tomcat - 连接器 [连接器 [HTTP/1.1 - TomEE 启动
我们被要求从 Tomcat 1.6 迁移到 TomEE。在我们的应用程序中，我们使用 tomcat 作为嵌入式服务器。当我们尝试根据以下教程“http://www.copperykeenclaws.c
mysql - 如何在不安装 mysql 连接器 msi 的情况下引用 nhibernate 中的 mysql 连接器？
我需要一些有关配置文件的帮助。我已经在我的项目中包含了MySql.Data.dll，但是我如何告诉配置文件这个dll包含MySQL连接器？ NHibernate.Connection.Dr
mysql - CodeIgniter 连接器
我花了几个小时盯着这段代码。请新鲜的眼睛! 这是查询的简化版本: You have an error in your SQL syntax; check the manual that corresp
安卓 JDBC 连接器
我正在开发一个应用程序，它可以在不使用任何网络服务的情况下将数据插入数据库。我用 MySQL Workbench 在我的笔记本上创建了一个数据库。我可以使用模拟器将数据插入数据库，但我无法使用手机将数
java - Zimbra 连接器
我刚刚发现了 Zimbra，并且有一个用 Java 编写的连接器。我一直在网上寻找其他人的一些文档或经验，但找不到任何东西。是否有任何关于 API 的良好文档，以便我可以开始并检查可以用它做什么？谢
C++ - Mysql 连接器
我正在使用 C++ mysql 连接器在我的 mysql 数据库中执行操作。我的 C++ 程序是一个实时应用程序(rest api)，它始终在云端运行，始终等待用户请求。当我启动第一种类型的程序时
MYSQL C 连接器
我有一个 C 进程正在快速写入 mysql 数据库~每秒 10 次。此过程使用 MySql C 连接器。运行约2分钟后，进程挂起，系统监视器显示 "futex_wait_queue_me" ，还有
MySQL 连接器/网络跟踪
有谁知道使用 TraceListener 为 MySQL 连接器/网络启用跟踪的方法我希望它记录实际针对数据库运行的 SQL 查询，即查看参数值被替换的 SQL。最佳答案从 mysql 5.1.2
C# MySQL 连接器
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
MySql 连接器 EF6
作为 EF 菜鸟，我正在尝试将 Entity Framework 6 Code First 与我安装在我的开发计算机上的 MySql Server 5.6 结合使用。我做了一个非常小的测试控制台项目
jdbc - 谷歌电子表格 jdbc 连接器
我需要将 Google Spreadsheet 与 JasperReports Server 一起使用，为此我需要一个用于 Google Spreadsheet 的 JDBC 连接器。我找到了这个
eclipse - 如何查看安装的 m2e 连接器？
我已经安装了 Tycho m2e 连接器，如下所述:http://codeandme.blogspot.ru/2012/12/tycho-build-1-building-plug-ins.html
.net - SAP .NET 连接器
我被要求使用 SAP .NET 连接器。我目前使用 .NET 4.0 和 VS2010。有什么我需要降级的吗？另外，有没有人知道有关如何使用它的任何当前在线教程？我所拥有的只是来自 SAP 的信息，
maven - 什么是 m2e 连接器？
我想知道什么是 m2e 连接器。除了这个页面，我在互联网上没有找到太多描述它们的内容: http://objectledge.org/confluence/display/TOOLS/M2E+Conn
iPad VGA 连接器 - 在自己的应用程序中镜像屏幕？
是否可以通过 VGA 连接器镜像屏幕？找不到任何关于此的内容。最佳答案我一直在寻找和你一样的东西。上周末我写了一个小的 UIApplication 类别来添加镜像支持。我在 Google Code
Azure 逻辑应用程序 Sql 连接器
我正在开发从 SQL Server Db 提取 CDC 数据的逻辑应用程序。我正在使用“获取行”操作，但当我尝试使用过滤查询参数时，问题就出现了。代码 eq '793'(有效) __$operati
elasticsearch - SPARK的 Elasticsearch 连接器
用例: 应用程序使用spark处理数据5分钟，要处理的数据可能是数据存储中数十万条记录的数据。数据存储的选择是Elastic Search。问题: 我们在Elasticsearch中是否有用于 S
hadoop - 非云环境中的 GCS 连接器
我已经安装了 hadoop 3 版本的 GCS 连接器，并将以下配置添加到 core-site.xml，如 Install.md 中所述.目的是将数据从本地集群中的 hdfs 迁移到云存储。核心站点
debezium - 如何删除 debezium 连接器
如何删除 debezium 连接器。我正在关注本教程 https://debezium.io/documentation/reference/tutorial.html我看到了注册连接器的方法，但不知
debezium - 如何删除 debezium 连接器
如何删除 debezium 连接器。我正在关注本教程 https://debezium.io/documentation/reference/tutorial.html我看到了注册连接器的方法，但不知

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - Hadoop 2.4.1和适用于Hadoop的Google Cloud Storage连接器