gpt4 book ai didi

hadoop - 是否可以直接从文件加载 Parquet 表?

转载 作者:可可西里 更新时间:2023-11-01 14:49:35 26 4
gpt4 key购买 nike

如果我有一个二进制数据文件(它可以转换为 csv 格式),有没有办法直接从它加载 parquet 表?许多教程展示了将 csv 文件加载到文本表,然后从文本表加载到 parquet 表。从效率的角度来看,是否可以像我已有的那样直接从二进制文件加载 Parquet 表?理想情况下使用创建外部表命令。或者我需要先将其转换为 csv 文件?有文件格式限制吗?

最佳答案

不幸的是,在 Impala 中无法读取自定义二进制格式。您应该将文件转换为 csv,然后在现有 csv 文件上创建一个外部表作为临时表,最后插入到从临时 csv 表读取的最终 Parquet 表中。 Impala Parquet documentation有更多信息和一些相关示例。请参阅有关压缩小文件的部分,这是类似的。

我不知道如何将文件格式转换为 csv,但您可以考虑编写一个程序将二进制格式转换为 Parquet。例如,您可以编写一个写入 Parquet 文件的 MapReduce 作业。下面是一个读取和写入 Parquet 的示例: https://github.com/cloudera/parquet-examples/blob/master/MapReduce/TestReadWriteParquet.java

关于hadoop - 是否可以直接从文件加载 Parquet 表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28416731/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com