gpt4 book ai didi

apache-spark - 在pyspark中读取Hive托管表的Orc文件

转载 作者:行者123 更新时间:2023-12-02 18:34:31 25 4
gpt4 key购买 nike

我正在尝试使用以下pyspark代码读取托管配置单元表的orc文件。

spark.read.format('orc').load('hive managed table path')

当我在获取的数据帧上执行打印模式时,如下
root
|-- operation: integer (nullable = true)
|-- originalTransaction: long (nullable = true)
|-- bucket: integer (nullable = true)
|-- rowId: long (nullable = true)
|-- currentTransaction: long (nullable = true)
|-- row: struct (nullable = true)
| |-- col1: float (nullable = true)
| |-- col2: integer (nullable = true)
|-- partition_by_column: date (nullable = true)

现在,我无法解析此数据并对数据帧进行任何操作。在应用诸如show()之类的 Action 时,我收到一条错误消息:
java.lang.IllegalArgumentException: Include vector the wrong length

有人遇到过同样的问题吗?如果可以,请提出解决方案。

最佳答案

这是已知的issue

您收到该错误,是因为您尝试读取Hive ACID表,但是Spark仍然不支持此功能。

也许您可以将Hive表导出到普通的ORC文件,然后用Spark读取它们,或尝试使用here所述的替代方法,例如Hive JDBC

关于apache-spark - 在pyspark中读取Hive托管表的Orc文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59245648/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com