gpt4 book ai didi

hadoop - Hadoop或Spark读取tar.bzip2读取

转载 作者:行者123 更新时间:2023-12-02 19:24:19 28 4
gpt4 key购买 nike

如何并行读取Spark中的tar.bzip2文件。
我创建了一个Java hadoop自定义阅读器,可以读取tar.bzip2文件,但是由于仅使用一个内核,并且由于某些执行者仅获得所有数据而导致应用程序失败,因此读取文件的时间过多。

最佳答案

因此,我们知道bzip压缩文件是可拆分的,因此当将bzip压缩到RDD中时,数据将分布在各个分区中。但是,基础tar文件也将分布在各个分区中,并且不可拆分,因此,如果尝试在分区上执行操作,您将只会看到很多二进制数据。

为了解决这个问题,我只需将压缩后的数据读入具有单个分区的RDD中。然后,我将该RDD写到目录中,所以现在您只有一个包含所有tar文件数据的文件。然后,我将这个tar文件从hdfs中拉到我的本地文件系统中,并将其解压缩。

关于hadoop - Hadoop或Spark读取tar.bzip2读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41725816/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com