java - 使用 Spark Java RDD，如何在每个任务完成后立即处理单个任务结果，而无需等待collect()？-6ren

java - 使用 Spark Java RDD，如何在每个任务完成后立即处理单个任务结果，而无需等待collect()？

转载作者：行者123 更新时间：2023-12-02 01:33:09

我正在通过collect()运行Spark RDD。每个单独的任务都需要很长时间来处理，并且collect()返回的结果集非常大:

   List<Result> manyResults =
      javaSparkContext
      .parallelize(tasks, tasks.size())
      .map(task -> task.process())
      .collect();

我需要在驱动程序上处理结果。

我不想等待所有结果完成，而是想在每个结果完成时单独处理每个结果。

Spark 有办法做到这一点吗？即在每个任务完成后迭代任务响应？

最佳答案

要么将逻辑也推向分布式(例如使用 udf)，要么可以在 Spark Streaming 中创建类似的流程并处理小批量工作

关于java - 使用 Spark Java RDD，如何在每个任务完成后立即处理单个任务结果，而无需等待collect()？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55720982/

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章