- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用象鸟来查询一些示例原生数据。我使用的是AddressBook示例,我将一些假的AddressBook序列化为文件,然后将它们放在/ user / foo / data / elephant-bird / addressbooks /下的hdfs中。该查询未返回任何结果
我像这样设置表并查询:
添加jar /home/foo/downloads/elephant-bird/hadoop-compat/target/elephant-bird-hadoop-compat-4.6-SNAPSHOT.jar;
添加jar /home/foo/downloads/elephant-bird/core/target/elephant-bird-core-4.6-SNAPSHOT.jar;
添加jar /home/foo/downloads/elephant-bird/hive/target/elephant-bird-hive-4.6-SNAPSHOT.jar;
创建外部表地址
行格式serde“com.twitter.elephantbird.hive.serde.ProtobufDeserializer”
具有serdeproperties(
“serialization.class” =“com.twitter.data.proto.tutorial.AddressBookProtos $ AddressBook”)
储存为
-Elephant-Bird提供了与Hive一起使用的输入格式
INPUTFORMAT“com.twitter.elephantbird.mapred.input.DeprecatedRawMultiInputFormat”
-占位符,因为我们将不会写入此表
输出格式“org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat”
位置'/ user / foo / data / elephant-bird / addressbooks /';
描述格式化的地址;
好
#col_name data_type注释
人数组{struct {名称:字符串,id:int,电子邮件:字符串,电话:数组{struct {number:字符串,类型:字符串}}}}}
来自反序列化器的byteData二进制
#详细表格信息
数据库:默认
所有者:foo
CreateTime:PDT 2014年10月28日星期二13:49:53
LastAccessTime:未知
保护模式:无
保留:0
位置:hdfs:// foo:8020 / user / foo / data / elephant-bird / addressbooks
表格类型:EXTERNAL_TABLE
表参数:
外部真实
transient_lastDdlTime 1414529393
#存储信息
SerDe库:com.twitter.elephantbird.hive.serde.ProtobufDeserializer
InputFormat:com.twitter.elephantbird.mapred.input.DeprecatedRawMultiInputFormat
OutputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
压缩:否
数量桶:-1
斗列:[]
排序列:[]
存储描述参数:
serialization.class com.twitter.data.proto.tutorial.AddressBookProtos $ AddressBook
序列化格式1
花费时间:0.421秒,获取:29行
当我尝试选择数据时,它不返回任何结果(似乎不读取行):
从地址中选择count(*);
MapReduce作业总数= 1
启动工作1之1
编译时确定的reduce任务数:1
为了更改 reducer 的平均负载(以字节为单位):
设置hive.exec.reducers.bytes.per.reducer =
为了限制 reducer 的最大数量:
设置hive.exec.reducers.max =
为了设置恒定数量的 reducer :
设置mapred.reduce.tasks =
开始的工作= job_1413311929339_0061,跟踪URL = http:// foo:8088 / proxy / application_1413311929339_0061 /
杀死命令= / usr / lib / hadoop / bin / hadoop job -kill job_1413311929339_0061
第1阶段的Hadoop作业信息:映射器数量:0; reducer 数量:1
2014-10-28 13:50:37,674第1阶段的 map = 0%,减少= 0%
2014-10-28 13:50:51,055第1阶段映射= 0%,减少= 100%,累计CPU 2.14秒
2014-10-28 13:50:52,152 Stage-1映射= 0%,减少= 100%,累积CPU 2.14秒
MapReduce累计CPU总时间:2秒140毫秒
结束的工作= job_1413311929339_0061
MapReduce作业启动:
作业0:减少:1累积CPU:2.14秒HDFS读取:0 HDFS写入:2成功
MapReduce花费的总CPU时间:2秒140毫秒
好
0
花费时间:37.519秒,已获取:1行
如果创建一个非外部表或将数据显式导入到外部表中,我会看到同一件事。
我的设置的版本信息:
节俭0.7
protobuf:libprotoc 2.5.0
hadoop:
Hadoop 2.5.0-cdh5.2.0
颠覆http://github.com/cloudera/hadoop -r e1f20a08bde76a33b79df026d00a0c91b2298387
jenkins于2014-10-11T21:00Z编译
与协议(protocol)2.5.0一起编译
来自带有校验和的源309bccd135b199bdfdd6df5f3f4153d
更新:
我在日志中看到此错误。我在HDFS中的数据只是原始protobuf(无压缩)。我想弄清楚这是否是问题所在,以及是否可以读取原始的二进制protobuf。
错误:java.io.IOException:java.lang.reflect.InvocationTargetException
在org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderCreationException(HiveIOExceptionHandlerChain.java:97)
在org.apache.hadoop.hive.io.HiveIOExceptionHandlerUtil.handleRecordReaderCreationException(HiveIOExceptionHandlerUtil.java:57)
在org.apache.hadoop.hive.shims.HadoopShimsSecure $ CombineFileRecordReader.initNextRecordReader(HadoopShimsSecure.java:346)处
在org.apache.hadoop.hive.shims.HadoopShimsSecure $ CombineFileRecordReader。(HadoopShimsSecure.java:293)
在org.apache.hadoop.hive.shims.HadoopShimsSecure $ CombineFileInputFormatShim.getRecordReader(HadoopShimsSecure.java:407)
在org.apache.hadoop.hive.ql.io.CombineHiveInputFormat.getRecordReader(CombineHiveInputFormat.java:560)
在org.apache.hadoop.mapred.MapTask $ TrackedRecordReader(MapTask.java:168)
在org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:409)
在org.apache.hadoop.mapred.MapTask.run(MapTask.java:342)
在org.apache.hadoop.mapred.YarnChild $ 2.run(YarnChild.java:167)
在java.security.AccessController.doPrivileged(本机方法)
在javax.security.auth.Subject.doAs(Subject.java:415)
在org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1554)
在org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:162)
造成原因:java.lang.reflect.InvocationTargetException
在sun.reflect.NativeConstructorAccessorImpl.newInstance0(本机方法)处
在sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
在sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
在java.lang.reflect.Constructor.newInstance(Constructor.java:526)
在org.apache.hadoop.hive.shims.HadoopShimsSecure $ CombineFileRecordReader.initNextRecordReader(HadoopShimsSecure.java:332)处
...另外11个
引起原因:java.io.IOException:找不到文件hdfs:// foo:8020 / user / foo / data / elephantbird / addressbooks / 1000AddressBooks-1684394246.bin的编解码器
在com.twitter.elephantbird.mapreduce.input.MultiInputFormat.determineFileFormat(MultiInputFormat.java:176)
在com.twitter.elephantbird.mapreduce.input.MultiInputFormat.createRecordReader(MultiInputFormat.java:88)
在com.twitter.elephantbird.mapreduce.input.RawMultiInputFormat.createRecordReader(RawMultiInputFormat.java:36)
在com.twitter.elephantbird.mapred.input.DeprecatedInputFormatWrapper $ RecordReaderWrapper处(DeprecatedInputFormatWrapper.java:256)
在com.twitter.elephantbird.mapred.input.DeprecatedInputFormatWrapper.getRecordReader(DeprecatedInputFormatWrapper.java:121)
在com.twitter.elephantbird.mapred.input.DeprecatedFileInputFormatWrapper.getRecordReader(DeprecatedFileInputFormatWrapper.java:55)
在org.apache.hadoop.hive.ql.io.CombineHiveRecordReader。(CombineHiveRecordReader.java:65)
...另外16个
最佳答案
你喜欢这个问题了吗?
正如您所描述的,我遇到了同样的问题。
是的,您是对的,我发现无法直接读取原始的二进制protobuf。
这是我所问的问题。
Use elephant-bird with hive to read protobuf data
希望能帮助到你
最好的祝福
关于hadoop - 无法使用大象鸟查询 hive 中的示例AddressBook protobuf数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26618929/
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Sample data for IPv6? 除了 wireshark 在其网站上提供的内容之外,是否有可以下
我正在寻找可以集成到现有应用程序中并使用多拖放功能的示例或任何现成的解决方案。我在互联网上找到的大多数解决方案在将多个项目从 ListBox 等控件拖放到另一个 ListBox 时效果不佳。谁能指出我
我是 GATE Embedded 的新手,我尝试了简单的示例并得到了 NoClassDefFoundError。首先我会解释我尝试了什么 在 D:\project\gate-7.0 中下载并提取 Ga
是否有像 Eclipse 中的 SWT 示例那样的多合一 JFace 控件示例?搜索(在 stackoverflow.com 上使用谷歌搜索和搜索)对我没有帮助。 如果它是一个独立的应用程序或 ecl
我找不到任何可以清楚地解释如何通过 .net API(特别是 c#)使用谷歌计算引擎的内容。有没有人可以指点我什么? 附言我知道 API 引用 ( https://developers.google.
最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC 认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,
最近在做公司的一个项目时,客户需要我们定时获取他们矩阵系统的数据。在与客户进行对接时,提到他们的接口使用的目前不常用的BASIC 认证。天呢,它好不安全,容易被不法人监听,咋还在使用呀。但是没办法呀,
我正在尝试为我的应用程序设计配置文件格式并选择了 YAML。但是,这(显然)意味着我需要能够定义、解析和验证正确的 YAML 语法! 在配置文件中,必须有一个名为 widgets 的集合/序列。 .这
你能给我一个使用 pysmb 库连接到一些 samba 服务器的例子吗?我读过有类 smb.SMBConnection.SMBConnection(用户名、密码、my_name、remote_name
linux服务器默认通过22端口用ssh协议登录,这种不安全。今天想做限制,即允许部分来源ip连接服务器。 案例目标:通过iptables规则限制对linux服务器的登录。 处理方法:编
我一直在寻找任何 PostProjectAnalysisTask 工作代码示例,但没有看。 This页面指出 HipChat plugin使用这个钩子(Hook),但在我看来它仍然使用遗留的 Po
我发现了 GWT 的 CustomScrollPanel 以及如何自定义滚动条,但我找不到任何示例或如何设置它。是否有任何示例显示正在使用的自定义滚动条? 最佳答案 这是自定义 native 滚动条的
我正在尝试开发一个 Backbone Marionette 应用程序,我需要知道如何以最佳方式执行 CRUD(创建、读取、更新和销毁)操作。我找不到任何解释这一点的资源(仅适用于 Backbone)。
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题?通过 editing this post 添加详细信息并澄清问题. 去年关闭。 Improve this
我需要一个提交多个单独请求的 django 表单,如果没有大量定制,我找不到如何做到这一点的示例。即,假设有一个汽车维修店使用的表格。该表格将列出商店能够进行的所有可能的维修,并且用户将选择他们想要进
我有一个 Multi-Tenancy 应用程序。然而,这个相同的应用程序有 liquibase。我需要在我的所有数据源中运行 liquibase,但是我不能使用这个 Bean。 我的应用程序.yml
我了解有关单元测试的一般思想,并已在系统中发生复杂交互的场景中使用它,但我仍然对所有这些原则结合在一起有疑问。 我们被警告不要测试框架或数据库。好的 UI 设计不适合非人工测试。 MVC 框架不包括一
我正在使用 docjure并且它的 select-columns 函数需要一个列映射。我想获取所有列而无需手动指定。 如何将以下内容生成为惰性无限向量序列 [:A :B :C :D :E ... :A
$condition使用说明和 $param在 findByAttributes在 Yii 在大多数情况下,这就是我使用 findByAttributes 的方式 Person::model()->f
我在 Ubuntu 11.10 上安装了 qtcreator sudo apt-get install qtcreator 安装的版本有:QT Creator 2.2.1、QT 4.7.3 当我启动
我是一名优秀的程序员,十分优秀!