gpt4 book ai didi

apache-spark - ORC 文件上的 Spark SQL 不返回正确的架构(列名)

转载 作者:行者123 更新时间:2023-12-04 04:09:30 27 4
gpt4 key购买 nike

我有一个包含 ORC 文件的目录。我正在使用以下代码创建一个 DataFrame

var data = sqlContext.sql("SELECT * FROM orc.`/directory/containing/orc/files`");

它返回具有此模式的数据框

[_col0: int, _col1: bigint]

预期的架构在哪里

[scan_nbr: int, visit_nbr: bigint]

当我查询 parquet 格式的文件时,我得到了正确的架构。

我是否缺少任何配置?

添加更多细节

这是 Hortonworks Distribution HDP 2.4.2(Spark 1.6.1、Hadoop 2.7.1、Hive 1.2.1)

我们没有更改 HDP 的默认配置,但这绝对不同于 Hadoop 的普通版本。

数据由上游 Hive 作业写入,一个简单的 CTAS(CREATE TABLE sample STORED AS ORC as SELECT ...)。

我在 CTAS 使用最新的 2.0.0 配置单元生成的文件上对此进行了测试,它保留了 orc 文件中的列名。

最佳答案

问题出在Hive版本,1.2.1,有这个bug HIVE-4243

这已在 2.0.0 中修复。

关于apache-spark - ORC 文件上的 Spark SQL 不返回正确的架构(列名),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38674623/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com