gpt4 book ai didi

hadoop - ORC 指定序列化器不工作

转载 作者:可可西里 更新时间:2023-11-01 15:10:10 26 4
gpt4 key购买 nike

我在 HDFS 中有一些数据是使用 Sqoop 导入的。数据以 ORC 格式导入,压缩为 Snappy。

我正在尝试使用以下 DDL 语句在此数据之上创建一个表。但是,我收到以下错误。

FAILED: SemanticException [Error 10043]: Either list of columns or a custom serializer should be specified

但是,我通过定义 ROW FORMAT SERDE and STORED AS INPUTFORMAT 和 OUTPUTFORMAT

来定义“自定义序列化程序”

DDL 声明:

CREATE EXTERNAL TABLE test_db.my_table_orc
ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION '/hdfs/app/DL/ORC_DATA_LOCATION'
tblproperties ("orc.compress"="SNAPPY");

最佳答案

Hive 目前不支持在DDL 中不指定列列表的情况下创建ORC 表。 ORC 文件确实包含有关列的元数据,因此如果您不确定给定的 ORC 文件的列,则可以运行 ORC File Dump Utility得到它。

关于hadoop - ORC 指定序列化器不工作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44727378/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com