gpt4 book ai didi

hadoop - 如何在 Hadoop 中合并 CSV 文件?

转载 作者:可可西里 更新时间:2023-11-01 15:08:34 25 4
gpt4 key购买 nike

我是 Hadoop 框架的新手,我想将 4 个 CSV 文件合并到一个文件中。

所有 4 个 CSV 文件都有相同的标题,顺序也相同。

最佳答案

我不认为 Pig STORE 提供这样的功能。

您可以使用 Spark 的 coalesce(1) 函数,但是,几乎没有理由这样做,因为几乎所有 Hadoop 处理工具都喜欢读取目录,而不是文件。

无论如何,理想情况下您不应将原始 CSV 存储在 Hadoop 中很长时间,而是将其转换为 ORC 或 Parquet 作为列数据。特别是如果您已经开始阅读 CSV,请不要再次输出 CSV。


如果这个想法是生成一个 CSV 供以后下载,那么我建议使用 Hive + Beeline 来做到这一点

这会将结果存储到本地文件系统中的文件中。

beeline -u 'jdbc:hive2://[databaseaddress]' --outputformat=csv2 -f yourSQlFile.sql > theFileWhereToStoreTheData.csv 

关于hadoop - 如何在 Hadoop 中合并 CSV 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53656701/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com