gpt4 book ai didi

hadoop - 使用动态列插入 Hive

转载 作者:可可西里 更新时间:2023-11-01 15:52:38 27 4
gpt4 key购买 nike

我收到的文件中的列是动态的。文件1可以是

column1 column2 column3 column4 column5 column6 column7

文件2可以

column1 column2 column9 column10    column11    column12    column13

文件3可以

column1 column2 column3 column10    column11

如何将配置单元表修改为我将随文件一起接收的列。

最佳答案

这会非常困惑,但如果没有任何明确的定界符,您能做的最好的事情就是定义一个 RegexSerDe 并捕获每个可能的列。

您缺少的列基本上是一个可选的捕获组 ()?

您的另一个选择是让 Spark 根据标题行推断模式和缺失的列,如果您有的话

一旦获得原始数据的文本表格,就应该将其转换为适当的柱状数据格式。

关于hadoop - 使用动态列插入 Hive,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47440766/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com