gpt4 book ai didi

hadoop - HDFS保存数据的格式有哪些?

转载 作者:可可西里 更新时间:2023-11-01 15:09:49 24 4
gpt4 key购买 nike

创建 DataFrame 后,我可以将其保存为 avro、csv 或 parquet 格式。

在 dataframe 或 rdd 中是否有任何其他可用格式可以将数据保存在 Hadoop HDFS 中?

最佳答案

来自 What Is Apache Hadoop? :

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

有了它,您可以使用 HDFS 以任何格式存储虚拟文件,包括 avro、CSV、parquet 等。


在 Spark 中,您可以使用 format 指定 DataFrame 的格式方法,而存储中的位置使用 save方法。

format(source: String): DataFrameWriter[T] Specifies the underlying output data source. Built-in options include "parquet", "json", etc.

save(path: String): Unit Saves the content of the DataFrame at the specified path.

您还可以使用快捷方式定义存储上 DataFrame 的格式和路径,使用格式特定的方法,如 json(path: String)parquet(path:字符串) 或类似的。

关于hadoop - HDFS保存数据的格式有哪些?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47923759/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com