- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想重用我的 DataFrame(而不回退到使用 RDD/Dataset 中的“Map”函数来执行此操作),我将其标记为可广播,但似乎 Spark 一直在广播它。
有一个表“bank”(测试表)。我执行以下操作:
val cachedDf = spark.sql("select * from bank").cache
cachedDf.count
val dfBroadcasted = broadcast(cachedDf)
val dfNormal = spark.sql("select * from bank")
dfNormal.join(dfBroadcasted, List("age"))
.join(dfBroadcasted, List("age")).count
我之前进行了缓存,以防万一它有所作为,但不管有没有都一样。
如果我执行上面的代码,我会看到以下 SQL 计划:
如您所见,我广播的 DF 以不同的时间广播了两次(如果我之后添加更多 Action ,它们也会再次广播)。
我很关心这个,因为我实际上有一个长期运行的程序,它有一个“大”DataFrame,我可以用它来过滤掉巨大的 DataFrame,我希望这个“大”DataFrame 能够被重用。
有没有办法强制可重用性? (不仅在同一个 Action 中,而且在 Action 之间,我可以通过相同的 Action 生存下来)
谢谢!
最佳答案
好的,更新问题。
总结:在同一个 Action 中,left_semis 将重用广播而正常/左连接不会。不确定与 Spark/开发人员已经知道该 DF 的列根本不会影响输出的事实有关,因此他们可以重用它,或者它只是缺少优化 Spark 。
我的问题似乎已基本解决,但如果有人知道如何保持跨操作的广播会更好。
如果我使用 left_semi(这是我将在我的真实应用程序中使用的连接),广播只会执行一次。
与:
dfNormalxx.join(dfBroadcasted, Seq("age"),"left_semi")
.join(dfBroadcasted, Seq("age"),"left_semi").count
计划变成了(我也改变了尺寸以匹配我的真实尺寸,但这没有区别):
此外,wall 的总时间比使用“left_semi”时要好得多(我设置了 1 个执行程序,因此它不会并行化,只是想检查作业是否真的完成了两次):
即使我的收集需要 10 秒,这将加速表读取 + groupBys,这需要 6-7 分钟
关于apache-spark - Spark复用广播DF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56924727/
本文书接上回《反DDD模式之关系型数据库》,关注公众号(老肖想当外语大佬)获取信息: 最新文章更新; DDD框架源码(.NET、Java双平台); 加群畅聊,建模分析、技术实
我里面有 VC 和一个 collectionView。所有管理 Collection View 的代码我都放在那个 VC 的扩展中。但现在我需要在另一个不同的 VC 中使用这个 Collection
我很难重新使用子机图。 我需要重新使用我已链接到一个状态的状态机作为子机,在另一个状态中作为子机。但是当我给出对它的引用时,我得到一个空指针异常。 引用图片 我已经添加了对 GeneralTopup
我想尝试 lambda 的一些功能,并想编写一个 ArrayList 过滤器,并使用 IntStream 的方法来计算 ArrayList 中数字的平均值和最大值 我的第一个想法是过滤 ArrayLi
我正在开发一个 NodeJS 应用程序并使用 Mocha 进行单元测试。 假设我有两个非常相似的测试服。事实上,这些是针对两个类的测试实现相同的接口(interface)。 例如: suit_a.js
我正在使用 Glade 编写带有对话框的 python GUI。 如果我不使用 Glade,我会使用一个类来创建一个对话窗口 (dialag),运行它 (dialog.run),执行它所做的任何事情,
我在使用自定义单元格创建 UICollectionView 以显示项目时遇到问题。但是在 UICollectionView 刷新后,可重用的单元格填充了错误的索引 刷新前的 UICollectionV
我从 Sencha 学习 ExtJS 并有下一个简单的任务: 我的页面上有 2 个 div 在第一个 div 中我渲染 Ext.Button 在按钮上单击我想将其移动到另一个 div 仅此而已 我写了
我想在不同的 Node 模块中重用 RabbitMQ channel 。由于 channel 是异步创建的,我不确定将此 channel 对象“注入(inject)”到其他模块的最佳方法是什么。 如果
所以我的问题是我收到一个 SIGABRT 错误,其定义如下: *** Terminating app due to uncaught exception 'NSInvalidArgumentExcep
我正在编写一个 PHP 脚本来将主题从旧论坛站点迁移到新站点。 旧论坛站点使用数据库“old_forums” 新论坛站点使用数据库“new_forums” MySQL 用户“forums”拥有两个数据
我有一个使用 jcodec 生成的 MP4 文件。 然后我就有了一个使用 Android 的 MediaCodec 生成的 AAC 文件。 我想将它们混合到一个文件中,并且由于我不想将我的 Andro
我正在使用 ffmpeg 开发一个 c++ 项目。我必须生成一个带有 h264 编码的 mp4 文件。 我的问题是文件生成但是当用 VLC 读取文件时我没有图像,并用 ffprobe 分析它给我(下面
我将尝试重新提出这个问题。 我想要做的是创建一个新的 mp4 文件,其中将包括一个视频文件、两个音频文件和一个字幕文件。我想创建一个可以在我的 iOS 设备和计算机上播放的 mp4 文件。 文件如下:
虽然我的问题可能看起来很抽象,但我希望不是。假设我开发了一个应用程序,一个 ASP.NET MVC 站点,然后我的任务是为这个应用程序构建一个 Winforms 客户端,我可以从现有应用程序中重用多少
我是一名优秀的程序员,十分优秀!