gpt4 book ai didi

scala - 在Spark中读取压缩的xml文件

转载 作者:行者123 更新时间:2023-12-02 21:17:11 25 4
gpt4 key购买 nike

我有一组大型xml文件,这些文件以压缩文件和许多此类zip文件压缩在一起。我之前使用Mapreduce使用自定义inputformat和recordreader来解析xml,设置splittable = false并读取zip和xml文件。

我是Spark的新手。有人可以帮助我如何防止Spark分割zip文件并像在MR中一样并行处理多个zip。

最佳答案

据我所知 !问题的答案由@holden提供here:
请看一下 !谢谢 :)

关于scala - 在Spark中读取压缩的xml文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38433970/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com