gpt4 book ai didi

java - Spark flatMap/减少 : How to scale and avoid OutOfMemory?

转载 作者:可可西里 更新时间:2023-11-01 16:43:36 25 4
gpt4 key购买 nike

我正在将一些 map-reduce 代码迁移到 Spark 中,并且在构造 Iterable 以在函数中返回时遇到问题。在 MR 代码中,我有一个按键分组的 reduce 函数,然后(使用 multipleOutputs)将迭代值并使用 write(在多个输出中,但这并不重要)像这样的代码(简化):

reduce(Key key, Iterable<Text> values) {
// ... some code
for (Text xml: values) {
multipleOutputs.write(key, val, directory);
}
}

但是,在 Spark 中,我已经翻译了一个 map ,并将其归约为以下序列: mapToPair -> groupByKey -> flatMap按照建议...在某本书中。

mapToPair 基本上通过 functionMap 添加一个 Key,它基于记录上的某些值为该记录创建一个 Key。有时一个键可能有很高的基数。

JavaPairRDD<Key, String> rddPaired = inputRDD.mapToPair(new PairFunction<String, Key, String>() { 
public Tuple2<Key, String> call(String value) {
//...
return functionMap.call(value);
}
});

rddPaired 应用 RDD.groupByKey() 来获取 RDD 以提供给 flatMap 函数:

JavaPairRDD<Key, Iterable<String>> rddGrouped = rddPaired.groupByKey();

分组后,调用 flatMap 来执行reduce。这里,操作是一个转换:

public Iterable<String> call (Tuple2<Key, Iterable<String>> keyValue) {
// some code...
List<String> out = new ArrayList<String>();
if (someConditionOnKey) {
// do a logic
Grouper grouper = new Grouper();
for (String xml : keyValue._2()) {
// group in a separate class
grouper.add(xml);
}
// operation is now performed on the whole group
out.add(operation(grouper));
} else {
for (String xml : keyValue._2()) {
out.add(operation(xml));
}
return out;
}
}

它工作正常......没有太多记录的键。实际上,当具有很多值的键进入 reduce 的“else”时,它会因 OutOfMemory 而中断。

注意:我已经包括了“if”部分来解释我想产生的逻辑,但是当输入“else”时失败发生......因为当数据进入“else”时,通常意味着会有由于数据的性质,它具有更多的值(value)。

很明显,必须将所有分组值保留在“out”列表中,如果一个键有数百万条记录,它就不会扩展,因为它会将它们保存在内存中。我已经到了 OOM 发生的地步(是的,这是在执行上面的“操作”时要求内存 - 但没有给出。虽然这不是一个非常昂贵的内存操作)。

有什么方法可以避免这种情况以进行扩展吗?通过使用其他一些指令复制行为以更可扩展的方式达到相同的输出,或者能够将合并的值交给 Spark(就像我以前对 MR 所做的那样)...

最佳答案

flatMap 操作中做条件是低效的。您应该检查外部条件以创建 2 个不同的 RDD 并分别处理它们。

rddPaired.cache();

// groupFilterFunc will filter which items need grouping
JavaPairRDD<Key, Iterable<String>> rddGrouped = rddPaired.filter(groupFilterFunc).groupByKey();
// processGroupedValuesFunction should call `operation` on group of all values with the same key and return the result
rddGrouped.mapValues(processGroupedValuesFunction);

// nogroupFilterFunc will filter which items don't need grouping
JavaPairRDD<Key, Iterable<String>> rddNoGrouped = rddPaired.filter(nogroupFilterFunc);
// processNoGroupedValuesFunction2 should call `operation` on a single value and return the result
rddNoGrouped.mapValues(processNoGroupedValuesFunction2);

关于java - Spark flatMap/减少 : How to scale and avoid OutOfMemory?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38312142/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com