gpt4 book ai didi

java - 从Spark中的多个.gz文件中读取特定文件

转载 作者:行者123 更新时间:2023-12-02 01:05:50 24 4
gpt4 key购买 nike

我正在尝试读取文件夹内多个 .gz 文件中存在的具有特定名称的文件。
例如
D:/sample_datasets/gzfiles
|-my_file_1.tar.gz
|-my_file_1.tar
|-file1.csv
|-file2.csv
|-file3.csv
|-my_file_2.tar.gz
|-my_file_2.tar
|-file1.csv
|-file2.csv
|-file3.csv

我只对阅读 file1.csv 的内容感兴趣,它在所有 .gz 文件中具有相同的架构。

我是将路径 D:/sample_datasets/gzfiles 传递给 JavaSparkContext 中的 wholeTextFiles() 方法。但是,它返回 tar 可视化中所有文件的内容。 file1.csv、file2.csv、file3.csv。

有没有办法只能读取数据集或 RDD 中的 file1.csv 的内容。提前致谢!

最佳答案

在路径末尾使用*.gz

希望这有帮助!

关于java - 从Spark中的多个.gz文件中读取特定文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57729890/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com