gpt4 book ai didi

hadoop - 将 ORC 文件转换为 Parquet 文件

转载 作者:可可西里 更新时间:2023-11-01 15:51:23 24 4
gpt4 key购买 nike

是否有任何已知的库/方法可以将 ORC 文件转换为 Parquet 文件?否则我正在考虑使用 Spark 将 ORC 导入数据框然后输出到 Parquet 文件

最佳答案

您提到使用 Spark 读取 ORC 文件、创建 DataFrame,然后将这些 DF 存储为 Parquet 文件。这是一种完全有效且非常有效的方法!

另外,根据您的偏好和用例,您甚至可以使用 Hive 或 Pig [也许您可以在这里加入 Tez 以获得更好的性能] 或 Java MapReduce 甚至 NiFi/StreamSets [取决于您的分布] .这是一个非常简单的实现,你可以做任何最适合你的事情[或者任何你最喜欢的事情:)]

关于hadoop - 将 ORC 文件转换为 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48897836/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com