gpt4 book ai didi

java - 使用 Spark Java RDD,如何在每个任务完成后立即处理单个任务结果,而无需等待collect()?

转载 作者:行者123 更新时间:2023-12-02 01:33:09 24 4
gpt4 key购买 nike

我正在通过collect()运行Spark RDD。每个单独的任务都需要很长时间来处理,并且collect()返回的结果集非常大:

   List<Result> manyResults =
javaSparkContext
.parallelize(tasks, tasks.size())
.map(task -> task.process())
.collect();

我需要在驱动程序上处理结果。

我不想等待所有结果完成,而是想在每个结果完成时单独处理每个结果。

Spark 有办法做到这一点吗?即在每个任务完成后迭代任务响应?

最佳答案

要么将逻辑也推向分布式(例如使用 udf),要么可以在 Spark Streaming 中创建类似的流程并处理小批量工作

关于java - 使用 Spark Java RDD,如何在每个任务完成后立即处理单个任务结果,而无需等待collect()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55720982/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com