gpt4 book ai didi

mysql - 加载到 Hive 表时转换为 parquet 文件格式

转载 作者:行者123 更新时间:2023-11-29 21:39:14 27 4
gpt4 key购买 nike

我们想要从 mysql 到 hdfs 进行实时复制,并将文件以 parquet 格式存储在 hdfs 集群中。

据我们所知,我们可以使用以下任一方法来做到这一点

1) 钨复制器或2)Mysql服务器支持实时复制到hdfs。

但我们的问题是,在将数据加载到 hdfs 时,它们都不支持转换为 parquet。

所以只是想知道是否有任何方法可以将文件作为 parquet 存储在 hdfs 集群中进行实时复制。

第二个问题是,当您使用“LOAD DATA INPATH”在 hive 表中加载 csv 文件时,如果该表已定义为 Parquet 文件格式,则 hive 会将文件转换为 parquet 格式,否则我们需要编写一个实用程序来转换将文件转换为 parquet 格式,然后加载。

最佳答案

第二个问题:CREATE TABLE 语句应使用语法指定 Parquet 存储格式。这一切都归结为 Hive 的版本。某些版本不支持 parquet 文件

关于mysql - 加载到 Hive 表时转换为 parquet 文件格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34671651/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com