gpt4 book ai didi

hive - 使用 FileFormat v Serde 读取自定义文本文件

转载 作者:行者123 更新时间:2023-12-04 09:20:24 25 4
gpt4 key购买 nike

Hadoop/Hive 新手在这里。我正在尝试使用以自定义文本格式存储的数据与 Hive。我的理解是您可以编写自定义 FileFormat或定制 SerDe类来做到这一点。是这样还是我误解了?关于何时选择哪个选项的一般准则是什么?谢谢!

最佳答案

我想到了。毕竟我不必编写 serde,而是编写了一个自定义 InputFormat(扩展 org.apache.hadoop.mapred.TextInputFormat ),它返回一个自定义 RecordReader(实现 org.apache.hadoop.mapred.RecordReader<K, V>)。 RecordReader 实现逻辑来读取和解析我的文件并返回制表符分隔的行。

有了这个,我宣布我的 table 是

create table t2 ( 
field1 string,
..
fieldNN float)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS INPUTFORMAT 'namespace.CustomFileInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

这使用 native SerDe。另外,使用自定义输入格式时需要指定输出格式,所以我选择了其中一种内置输出格式。

关于hive - 使用 FileFormat v Serde 读取自定义文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7734193/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com