apache-spark - Spark复用广播DF-6ren

apache-spark - Spark复用广播DF

转载作者：行者123 更新时间：2023-12-04 15:43:15

24

4

我想重用我的 DataFrame(而不回退到使用 RDD/Dataset 中的“Map”函数来执行此操作)，我将其标记为可广播，但似乎 Spark 一直在广播它。

有一个表“bank”(测试表)。我执行以下操作:

  val cachedDf = spark.sql("select * from bank").cache
  cachedDf.count

  val dfBroadcasted = broadcast(cachedDf)

  val dfNormal = spark.sql("select * from bank")

  dfNormal.join(dfBroadcasted, List("age"))
    .join(dfBroadcasted, List("age")).count

我之前进行了缓存，以防万一它有所作为，但不管有没有都一样。

如果我执行上面的代码，我会看到以下 SQL 计划:

如您所见，我广播的 DF 以不同的时间广播了两次(如果我之后添加更多 Action ，它们也会再次广播)。

我很关心这个，因为我实际上有一个长期运行的程序，它有一个“大”DataFrame，我可以用它来过滤掉巨大的 DataFrame，我希望这个“大”DataFrame 能够被重用。

有没有办法强制可重用性？ (不仅在同一个 Action 中，而且在 Action 之间，我可以通过相同的 Action 生存下来)

谢谢!

最佳答案

好的，更新问题。

总结:在同一个 Action 中，left_semis 将重用广播而正常/左连接不会。不确定与 Spark/开发人员已经知道该 DF 的列根本不会影响输出的事实有关，因此他们可以重用它，或者它只是缺少优化 Spark 。

我的问题似乎已基本解决，但如果有人知道如何保持跨操作的广播会更好。

如果我使用 left_semi(这是我将在我的真实应用程序中使用的连接)，广播只会执行一次。

与:

    dfNormalxx.join(dfBroadcasted, Seq("age"),"left_semi")
.join(dfBroadcasted, Seq("age"),"left_semi").count

计划变成了(我也改变了尺寸以匹配我的真实尺寸，但这没有区别):

此外，wall 的总时间比使用“left_semi”时要好得多(我设置了 1 个执行程序，因此它不会并行化，只是想检查作业是否真的完成了两次):

即使我的收集需要 10 秒，这将加速表读取 + groupBys，这需要 6-7 分钟

关于apache-spark - Spark复用广播DF，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56924727/

24

4

0

文章推荐： Angular - 从辅助路由刷新浏览器时如何始终登陆起始页

反DDD模式之“复用”
本文书接上回《反DDD模式之关系型数据库》，关注公众号（老肖想当外语大佬）获取信息：最新文章更新； DDD框架源码（.NET、Java双平台）；加群畅聊，建模分析、技术实
ios - 复用 collectionView
我里面有 VC 和一个 collectionView。所有管理 Collection View 的代码我都放在那个 VC 的扩展中。但现在我需要在另一个不同的 VC 中使用这个 Collection
Spring 状态机——复用 Submachine
我很难重新使用子机图。我需要重新使用我已链接到一个状态的状态机作为子机，在另一个状态中作为子机。但是当我给出对它的引用时，我得到一个空指针异常。引用图片我已经添加了对 GeneralTopup
Java Lambda 复用 Stream
我想尝试 lambda 的一些功能，并想编写一个 ArrayList 过滤器，并使用 IntStream 的方法来计算 ArrayList 中数字的平均值和最大值我的第一个想法是过滤 ArrayLi
javascript - 复用 mocha 测试代码
我正在开发一个 NodeJS 应用程序并使用 Mocha 进行单元测试。假设我有两个非常相似的测试服。事实上，这些是针对两个类的测试实现相同的接口(interface)。例如: suit_a.js
python - python中如何使用Glade的对话框运行、销毁、复用
我正在使用 Glade 编写带有对话框的 python GUI。如果我不使用 Glade，我会使用一个类来创建一个对话窗口 (dialag)，运行它 (dialog.run)，执行它所做的任何事情，
ios - UICollectionView 静态 CustomCell 复用
我在使用自定义单元格创建 UICollectionView 以显示项目时遇到问题。但是在 UICollectionView 刷新后，可重用的单元格填充了错误的索引刷新前的 UICollectionV
javascript - ExtJS Ext.Button 复用
我从 Sencha 学习 ExtJS 并有下一个简单的任务: 我的页面上有 2 个 div 在第一个 div 中我渲染 Ext.Button 在按钮上单击我想将其移动到另一个 div 仅此而已我写了
javascript - 回调/复用 channel 的复用参数
我想在不同的 Node 模块中重用 RabbitMQ channel 。由于 channel 是异步创建的，我不确定将此 channel 对象“注入(inject)”到其他模块的最佳方法是什么。如果
ios - UIViewController 复用 Cell 并改变里面的 Label
所以我的问题是我收到一个 SIGABRT 错误，其定义如下: *** Terminating app due to uncaught exception 'NSInvalidArgumentExcep
php - 复用 MySQL 连接 PHP 对象继承
我正在编写一个 PHP 脚本来将主题从旧论坛站点迁移到新站点。旧论坛站点使用数据库“old_forums” 新论坛站点使用数据库“new_forums” MySQL 用户“forums”拥有两个数据
java - 复用 MP4 和 AAC(jcodec、MP4Parser)
我有一个使用 jcodec 生成的 MP4 文件。然后我就有了一个使用 Android 的 MediaCodec 生成的 AAC 文件。我想将它们混合到一个文件中，并且由于我不想将我的 Andro
c++ - FFMPEG API Mp4 H264 编码/复用 - 未指定的像素格式
我正在使用 ffmpeg 开发一个 c++ 项目。我必须生成一个带有 h264 编码的 mp4 文件。我的问题是文件生成但是当用 VLC 读取文件时我没有图像，并用 ffprobe 分析它给我(下面
video - FFMPEG/MP4BOX 复用 .mp4 和 .h262、.acc x2 和 srt
我将尝试重新提出这个问题。我想要做的是创建一个新的 mp4 文件，其中将包括一个视频文件、两个音频文件和一个字幕文件。我想创建一个可以在我的 iOS 设备和计算机上播放的 mp4 文件。文件如下:
asp.net-mvc - 复用 MVC 架构；有两层 UI : ASP. NET MVC 和 .NET Winforms
虽然我的问题可能看起来很抽象，但我希望不是。假设我开发了一个应用程序，一个 ASP.NET MVC 站点，然后我的任务是为这个应用程序构建一个 Winforms 客户端，我可以从现有应用程序中重用多少

首页

博学

6Ren·AI

商城

apache-spark - Spark复用广播DF