作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在通过collect()运行Spark RDD。每个单独的任务都需要很长时间来处理,并且collect()返回的结果集非常大:
List<Result> manyResults =
javaSparkContext
.parallelize(tasks, tasks.size())
.map(task -> task.process())
.collect();
我需要在驱动程序上处理结果。
我不想等待所有结果完成,而是想在每个结果完成时单独处理每个结果。
Spark 有办法做到这一点吗?即在每个任务完成后迭代任务响应?
最佳答案
要么将逻辑也推向分布式(例如使用 udf),要么可以在 Spark Streaming 中创建类似的流程并处理小批量工作
关于java - 使用 Spark Java RDD,如何在每个任务完成后立即处理单个任务结果,而无需等待collect()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55720982/
我是一名优秀的程序员,十分优秀!