gpt4 book ai didi

java - 使用 Apache Spark 进行嵌套迭代?

转载 作者:行者123 更新时间:2023-11-29 03:10:36 25 4
gpt4 key购买 nike

我正在考虑将 Apache Spark(在 Java 中)用于一个项目,但是这个项目需要数据处理框架来支持嵌套迭代。我还没有找到任何证实,它支持它吗?另外,有没有使用嵌套迭代的例子?

谢谢!

最佳答案

几乎任何事情都可以做,但问题是什么适合执行模型足以打扰。 Spark 的操作本质上是并行的,而不是迭代的。也就是说,一些操作并行发生在一堆数据上,而不是按顺序发生在每个数据上(然后再次发生)。

然而,Spark(驱动程序)程序只是一个程序,可以在本地执行任何您想做的事情。当然,嵌套循环或您喜欢的任何东西都完全可以,就像在任何 Scala 程序中一样。

我认为您可以将 Spark 操作用于分桶过程并计算每个分桶的汇总统计信息,否则在驱动程序本地运行逻辑的简单剩余部分。

所以流程是:

  • 广播分桶方案
  • 在分布式操作中根据该方案进行存储
  • 将小的摘要统计数据拉给驱动程序
  • 更新分桶方案并再次发送
  • 重复...

关于java - 使用 Apache Spark 进行嵌套迭代?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29594097/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com