gpt4 book ai didi

hadoop - 如何读取 Spark 中的多行元素?

转载 作者:可可西里 更新时间:2023-11-01 14:22:50 25 4
gpt4 key购买 nike

当您使用 sc.textfile 在 Spark 中读取文件时,它会为您提供元素,其中每个元素都是单独的一行。但是,我希望每个元素都包含 N 行。我也不能使用定界符,因为该文件中没有定界符。那么,如何让 spark 为我提供多行元素?

我对使用 NLineInputFormat 类这样做很感兴趣。在 Spark 中可以这样做吗?我可以看到 MapReduce 的例子,但我不知道这将如何转化为 Spark。

最佳答案

是的,如果您从 hadoop 获取文件。你应该可以这样做:

val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])

这是 API doc .

关于hadoop - 如何读取 Spark 中的多行元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36052480/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com