gpt4 book ai didi

java - Apache Spark mapPartitionsWithIndex

转载 作者:搜寻专家 更新时间:2023-11-01 01:42:43 24 4
gpt4 key购买 nike

有人可以举例说明如何在 Java 中正确使用 mapPartitionsWithIndex 吗?我找到了很多 Scala 示例,但缺少 Java 示例。我的理解是否正确,使用此功能时,单独的分区将由单独的节点处理。

我收到以下错误

method mapPartitionsWithIndex in class JavaRDD<T> cannot be applied to given types;
JavaRDD<String> rdd = sc.textFile(filename).mapPartitionsWithIndex
required: Function2<Integer,Iterator<String>,Iterator<R>>,boolean
found: <anonymous Function2<Integer,Iterator<String>,Iterator<JavaRDD<String>>>>

做的时候

JavaRDD<String> rdd = sc.textFile(filename).mapPartitionsWithIndex(
new Function2<Integer, Iterator<String>, Iterator<JavaRDD<String>> >() {

@Override
public Iterator<JavaRDD<String>> call(Integer ind, String s) {

最佳答案

这是我用来删除 csv 文件第一行的代码:

JavaRDD<String> rawInputRdd = sparkContext.textFile(dataFile);

Function2 removeHeader= new Function2<Integer, Iterator<String>, Iterator<String>>(){
@Override
public Iterator<String> call(Integer ind, Iterator<String> iterator) throws Exception {
if(ind==0 && iterator.hasNext()){
iterator.next();
return iterator;
}else
return iterator;
}
};
JavaRDD<String> inputRdd = rawInputRdd.mapPartitionsWithIndex(removeHeader, false);

关于java - Apache Spark mapPartitionsWithIndex,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26466289/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com