gpt4 book ai didi

scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件

转载 作者:可可西里 更新时间:2023-11-01 14:14:42 28 4
gpt4 key购买 nike

我正在尝试从包含许多子目录的目录中读取文件。数据在 S3 中,我正在尝试这样做:

val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])

这似乎行不通。

感谢帮助

最佳答案

是的,它可以工作,虽然需要一段时间才能获得单独的 block /拆分,基本上是每个子目录中的特定目录:s3n://bucket/root_dir/*/data/*/*/*

关于scala - 使用来自 s3 或本地文件系统的 spark 从子目录递归读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27914145/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com