hadoop - 由于 hbase 客户端 jar 中的硬编码 managed=true，无法连接到 Bigtable 以扫描 HTable 数据-6ren

hadoop - 由于 hbase 客户端 jar 中的硬编码 managed=true，无法连接到 Bigtable 以扫描 HTable 数据

转载作者：可可西里更新时间：2023-11-01 15:27:08

我正在开发一个自定义加载函数，以便在 Dataproc 上使用 Pig 从 Bigtable 加载数据。我使用从 Dataproc 获取的以下 jar 文件列表编译我的 java 代码。当我运行以下 Pig 脚本时，它在尝试与 Bigtable 建立连接时失败。

错误信息是:

Bigtable does not support managed connections.

问题:

是否有解决此问题的方法？
这是一个已知问题吗？是否有解决或调整的计划？
是否有不同的方法将多重扫描作为 Pig 的加载函数来实现并与 Bigtable 一起工作？

详细信息:

Jar 文件:

hadoop-common-2.7.3.jar 
hbase-client-1.2.2.jar
hbase-common-1.2.2.jar
hbase-protocol-1.2.2.jar
hbase-server-1.2.2.jar
pig-0.16.0-core-h2.jar

这是一个使用我的自定义加载函数的简单 Pig 脚本:

%default gte         '2017-03-23T18:00Z'
%default lt          '2017-03-23T18:05Z'
%default SHARD_FIRST '00'
%default SHARD_LAST  '25'
%default GTE_SHARD   '$gte\_$SHARD_FIRST'
%default LT_SHARD    '$lt\_$SHARD_LAST'
raw = LOAD 'hbase://events_sessions'
      USING com.eduboom.pig.load.HBaseMultiScanLoader('$GTE_SHARD', '$LT_SHARD', 'event:*')
      AS (es_key:chararray, event_array);
DUMP raw;

我的自定义加载函数 HBaseMultiScanLoader 创建一个 Scan 对象列表，以对表 events_sessions 中不同范围的数据执行多次扫描，该表由 gte 和 lt 之间的时间范围确定，并按 SHARD_FIRST 到 SHARD_LAST 分片。

HBaseMultiScanLoader 扩展了 org.apache.pig.LoadFunc，因此它可以在 Pig 脚本中用作加载函数。当 Pig 运行我的脚本时，它会调用 LoadFunc.getInputFormat()。我的 getInputFormat() 实现返回我的自定义类 MultiScanTableInputFormat 的一个实例，它扩展了 org.apache.hadoop.mapreduce.InputFormat。MultiScanTableInputFormat 初始化 org.apache.hadoop.hbase.client.HTable 对象以初始化与表的连接。

深入研究 hbase-client 源代码，我看到 org.apache.hadoop.hbase.client.ConnectionManager.getConnectionInternal() 使用属性“调用 org.apache.hadoop.hbase.client.ConnectionManager.createConnection()管理”硬编码为“真”。您可以从下面的堆栈轨道中看到，我的代码 (MultiScanTableInputFormat) 尝试初始化一个调用 getConnectionInternal() 的 HTable 对象，它不提供将 managed 设置为 false 的选项。沿着堆栈跟踪向下，您将到达 AbstractBigtableConnection，它不接受 managed=true，因此导致与 Bigtable 的连接失败。

这是显示错误的堆栈跟踪:

2017-03-24 23:06:44,890 [JobControl] ERROR com.turner.hbase.mapreduce.MultiScanTableInputFormat - java.io.IOException: java.lang.reflect.InvocationTargetException
    at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:240)
    at org.apache.hadoop.hbase.client.ConnectionManager.createConnection(ConnectionManager.java:431)
    at org.apache.hadoop.hbase.client.ConnectionManager.createConnection(ConnectionManager.java:424)
    at org.apache.hadoop.hbase.client.ConnectionManager.getConnectionInternal(ConnectionManager.java:302)
    at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:185)
    at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:151)
    at com.eduboom.hbase.mapreduce.MultiScanTableInputFormat.setConf(Unknown Source)
    at com.eduboom.pig.load.HBaseMultiScanLoader.getInputFormat(Unknown Source)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigInputFormat.getSplits(PigInputFormat.java:264)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:301)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:318)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:196)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287)
    at org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob.submit(ControlledJob.java:335)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.pig.backend.hadoop23.PigJobControl.submit(PigJobControl.java:128)
    at org.apache.pig.backend.hadoop23.PigJobControl.run(PigJobControl.java:194)
    at java.lang.Thread.run(Thread.java:745)
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$1.run(MapReduceLauncher.java:276)
Caused by: java.lang.reflect.InvocationTargetException
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at org.apache.hadoop.hbase.client.ConnectionFactory.createConnection(ConnectionFactory.java:238)
    ... 26 more
Caused by: java.lang.IllegalArgumentException: Bigtable does not support managed connections.
    at org.apache.hadoop.hbase.client.AbstractBigtableConnection.<init>(AbstractBigtableConnection.java:123)
    at com.google.cloud.bigtable.hbase1_2.BigtableConnection.<init>(BigtableConnection.java:55)
    ... 31 more

最佳答案

最初的问题是由使用过时和弃用的 hbase 客户端 jar 和类引起的。

我更新了我的代码以使用 Google 提供的最新 hbase 客户端 jar，并且原来的问题已解决。

我仍然被一些我还没有弄清楚的 ZK 问题所困扰，但这是针对不同问题的对话。

这个已经回答了!

关于hadoop - 由于 hbase 客户端 jar 中的硬编码 managed=true，无法连接到 Bigtable 以扫描 HTable 数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43011467/

文章推荐： hadoop - CLOUDERA 中的管道 (C++)

文章推荐： eclipse - 如何从 Hadoop 上的 java jar 文件运行一个类？

bigtable - 为什么 BigTable 有列族？
为什么 BigTable 被构造为“family:qualifier”的两级层次结构？具体来说，为什么要强制执行此操作而不是仅使用列，并且例如建议用户将其限定符命名为“vertical:column”
bigtable - Gmail 与 Bigtable 一起使用的一般架构是什么
Google 现在允许您使用 BigTable(在 Google Cloud Platform 中托管为名为“Cloud Bigtable”的产品)开发应用程序。但是，我找不到太多关于如何为其设计模式
google-cloud-bigtable - Bigtable 备份和冗余
Google Cloud Bigtable 看起来很棒，但是我对备份和冗余有一些疑问。是否有备份数据以防止人为错误的任何选项？集群当前在单个区域中运行 - 是否有任何方法可以缓解区域不可用的情况？
bigtable - 更长时间地维护 Google Bigtable 中的数据
我们有一些用例，希望在 Google Bigtable 中长期存储大量数据: 产品开发期间用于性能调整用于演示我们需要存储数据，但我们并不真正需要它始终“在线”。当前的成本瓶颈似乎是节点的成本，
google-cloud-bigtable - Cloud Bigtable 行数的性能
我想衡量 Cloud Bigtable 在获取具有特定前缀的键的许多行计数方面的性能。假设一个模式的行键在末尾带有 unix 时间戳，例如，event_id#unix_timestamp。如果我需
google-cloud-bigtable - Cloud Bigtable 推荐的最小表大小
根据Cloud Bigtable performance docs我应该有一定的数据量来保证最高的吞吐量。在“性能较慢的原因”下它说: The workload isn't appropriate
google-cloud-bigtable - 我可以原子地增加 BigTable 中的列值吗？
BigTable 是否支持类似于 INCR 的原子增量操作？在 Redis 中？ BT的Golang库中有这个函数-https://godoc.org/cloud.google.com/go/bigt
google-cloud-bigtable - 高可用性是否需要多个 Google BigTable 节点？
我们正在试用 BigTable 并进行容量规划。我们认为一个节点可以满足我们实现初期的需求，以后我们会根据需要添加更多节点。我唯一的问题是，我们是否需要多个节点才能提供高可用性？ (我对什么是“节点”
google-cloud-bigtable - 实现声明的 Cloud Bigtable 写入 QPS
我们已经设置了具有 5 个节点的 Bigtable 集群，GCP 控制台指出它应该支持 50K QPS @ 6ms 的读取和写入。我们正在尝试加载一个大型数据集(约 8 亿条记录)，其中约 50 个
google-cloud-bigtable - Google Cloud Bigtable 上的 TTL
我有一个只有一个列族的表，该列的 TTL 为 24 小时，但我需要在截止日期前删除一些数据。为了实现这个目标，我伪造了插入日期。例如:如果我需要在插入后 1 小时删除一行，我将插入日期设置为 23
google-cloud-bigtable - Google Cloud Bigtable 上的 TTL
我有一个只有一个列族的表，该列的 TTL 为 24 小时，但我需要在截止日期前删除一些数据。为了实现这个目标，我伪造了插入日期。例如:如果我需要在插入后 1 小时删除一行，我将插入日期设置为 23
google-cloud-bigtable - 使用 Deployment Manager 部署 Google Cloud Bigtable
我正在尝试使用以下 YAML 配置文件部署 Bigtable 实例: resources: - name: foo-bigtable-instance type: bigtableadmin.v2
Bigtable 实例
有人可以提供一个真实的例子来说明如何在 Bigtable 中构建数据吗？请从搜索引擎、社交网络或任何其他熟悉的角度讨论，清楚而务实地说明行 -> 列族 -> 列组合如何优于传统的规范化关系方法。最佳
bigtable - 如何在谷歌云平台之外连接谷歌bigtable
我创建了一个 Google Bigtable 集群。我正在尝试连接以下 this tutorial我试图下载他们的 cli 项目并构建它，但是当我尝试执行任何命令时它都会失败。我还尝试构建更简单的连接
避免热点的 Bigtable 行键方案？
避免热点的 Bigtable 行键方案？一家公司需要您在 Google Bigtable 中创建一个架构，以允许对过去 2 年的记录进行历史分析。收到的每条记录每 15 分钟发送一次，其中包含设备的
bigdata - Bigtable 性能影响列族
我们目前正在调查使用多个列族对我们的 bigtable 查询性能的影响。我们发现将列拆分为多个列族并不会提高性能。有没有人有过类似的经历？关于我们的基准设置的更多细节。此时，我们生产表中的每一行都包
bigtable - 如果所有值都被垃圾收集，是否会自动删除一行？
假设有一行包含列族和其中的列。该列族有一个 gc 策略，并且该列中的所有值都刚刚过期。那么，该行会发生什么情况？该行会被垃圾收集器删除吗？或者，它仍然存在并且可以访问吗？我检查了文档，但只发现 h
bigtable - 如果所有值都被垃圾收集，是否会自动删除一行？
假设有一行包含列族和其中的列。该列族有一个 gc 策略，并且该列中的所有值都刚刚过期。那么，该行会发生什么情况？该行会被垃圾收集器删除吗？或者，它仍然存在并且可以访问吗？我检查了文档，但只发现 h
go - BigTable 中多列的过滤器
来自 CBT 的文档 // READING OP HERE timestamp := bigtable.Now() mut := bigtable.NewMutation() mut.Set(colu
java - bigtable 可以存储多少片平板电脑？
来自bigtable的论文。 bigtable我读到了这个: Each METADATA row stores approximately 1KB of data in memory. With a

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 由于 hbase 客户端 jar 中的硬编码 managed=true，无法连接到 Bigtable 以扫描 HTable 数据