gpt4 book ai didi

hadoop - HDFS “files”是目录

转载 作者:行者123 更新时间:2023-12-02 20:52:15 25 4
gpt4 key购买 nike

背景-我们正在尝试将不同的文件类型(csv或Parquet)读入pyspark,我的任务是编写一个确定文件类型的程序。

Parquet 文件似乎始终是目录, Parquet 文件在HDFS中显示为目录。

我们有一些csv文件,它们也是目录,其中文件名是目录名,并且该目录包含多个零件文件。这是什么过程?

为什么有些文件-"file"和某些文件“目录”?

最佳答案

这将取决于生成这些文件的过程。例如,当MapReduce产生输出时,它总是产生一个目录,然后在该目录中为每个reducer创建一个输出文件。这样做是为了使每个 reducer 可以独立创建其输出。

从Spark的CSV package来看,它期望输出到单个文件。因此,也许单文件CSV由Spark生成,目录由MapReduce生成。

为了尽可能通用,执行以下操作可能是一个好主意:检查相关文件是否为目录。如果不是,请检查扩展名。如果是,请查看目录内部文件的扩展名。这应该适合您的每种情况。

请注意,某些输入格式(例如MapReduce输入格式)将仅接受目录作为输入,而某些输入格式(例如Spark的textFile)将仅接受文件/文件组。您需要了解与您进行交互的库的期望。

关于hadoop - HDFS “files”是目录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45621641/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com