gpt4 book ai didi

hadoop - 如何将平面文件(非分隔文件)加载到HBase中?

转载 作者:行者123 更新时间:2023-12-02 21:23:30 25 4
gpt4 key购买 nike

我是hbase的新手,我有一个平面文件(非定界文件),我想将其加载到单个hbase表中。

这是我文件中某行的预览:

0107E07201512310015071C11100747012015123100



我知道一个例子,从位置1到7是id,从位置7到15是日期...。

问题是如何构建与我的文件相对应的架构,或者是否有办法将其转换为定界文件或使用jaql读取此类文件,因为我正在使用Infosphere BigInsights。

任何帮助将不胜感激。

提前致谢。

最佳答案

使用RegExSerDe创建Hive表

CREATE EXTERNAL TABLE testtable ((col1 STRING, col2 STRING, col3 STRING)
ROW FORMAT SERDE ‘org.apache.hadoop.hive.contrib.serde2.RegexSerDe’
WITH SERDEPROPERTIES (“input.regex” = “(.{5})(.{6})(.{3}).*” )
LOCATION ‘<hdfs-file-location>’;

您可以创建指向HBase的配置单元表
这是说明
http://hortonworks.com/blog/hbase-via-hive-part-1/

您可以使用
插入覆盖表以将数据从配置单元表加载到HBase表
https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-SELECTSandFILTERS

关于hadoop - 如何将平面文件(非分隔文件)加载到HBase中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36703803/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com