- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
以下代码,因此是一个关于性能的问题 - 当然可以大规模想象:
import org.apache.spark.sql.types.StructType
val df = sc.parallelize(Seq(
("r1", 1, 1),
("r2", 6, 4),
("r3", 4, 1),
("r4", 1, 2)
)).toDF("ID", "a", "b")
val ones = df.schema.map(c => c.name).drop(1).map(x => when(col(x) === 1, 1).otherwise(0)).reduce(_ + _)
// or
def ones = df.schema.map(c => c.name).drop(1).map(x => when(col(x) === 1, 1).otherwise(0)).reduce(_ + _)
df.withColumn("ones", ones).explain
这里在使用 def 和 val 时的两个物理计划 - 它们是相同的:
== Physical Plan == **def**
*(1) Project [_1#760 AS ID#764, _2#761 AS a#765, _3#762 AS b#766, (CASE WHEN (_2#761 = 1) THEN 1 ELSE 0 END + CASE WHEN (_3#762 = 1) THEN 1 ELSE 0 END) AS ones#770]
+- *(1) SerializeFromObject [staticinvoke(class
org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, scala.Tuple3, true])._1, true, false) AS _1#760, assertnotnull(input[0, scala.Tuple3, true])._2 AS _2#761, assertnotnull(input[0, scala.Tuple3, true])._3 AS _3#762]
+- Scan[obj#759]
== Physical Plan == **val**
*(1) Project [_1#780 AS ID#784, _2#781 AS a#785, _3#782 AS b#786, (CASE WHEN (_2#781 = 1) THEN 1 ELSE 0 END + CASE WHEN (_3#782 = 1) THEN 1 ELSE 0 END) AS ones#790]
+- *(1) SerializeFromObject [staticinvoke(class
org.apache.spark.unsafe.types.UTF8String, StringType, fromString, assertnotnull(input[0, scala.Tuple3, true])._1, true, false) AS _1#780, assertnotnull(input[0, scala.Tuple3, true])._2 AS _2#781, assertnotnull(input[0, scala.Tuple3, true])._3 AS _3#782]
+- Scan[obj#779]
所以,有讨论:
val vs def performance.
然后:
我看不出 .explains 有什么不同。好的。
来自其他地方:val 在定义时计算,def - 在调用时计算。
对于 -1er,我这样问,因为以下内容非常清楚,但 val 的内容比下面的代码更多,并且下面的代码没有被迭代:
var x = 2 // using var as I need to change it to 3 later
val sq = x*x // evaluates right now
x = 3 // no effect! sq is already evaluated
println(sq)
最佳答案
这里有两个核心概念,Spark DAG 创建和评估,以及 Scala 的 val
vs def
定义,这些是正交的
I see no difference in the .explains
您看不出有什么区别,因为从 Spark 的角度来看,查询是相同的。如果您将图形存储在 val
中或每次使用 def
创建它,对分析器来说并不重要。
From elsewhere: val evaluates when defined, def - when called.
这是 Scala 语义。 val
是一个不可变的引用,它在声明站点被评估一次。一个def
代表方法定义,如果你在里面分配一个新的DataFrame
,每次调用它都会创建一个。例如:
def ones =
df
.schema
.map(c => c.name)
.drop(1)
.map(x => when(col(x) === 1, 1).otherwise(0))
.reduce(_ + _)
val firstcall = ones
val secondCall = ones
上面的代码将在 DF 上构建两个单独的 DAG。
I am assuming that it makes no difference whether a val or def is used here as it essentially within a loop and there is a reduce. Is this correct?
我不确定您说的是哪个循环,但请参阅上面的回答了解两者之间的区别。
Will df.schema.map(c => c.name).drop(1) be executed per dataframe row? There is of course no need. Does Catalyst optimize this?
不,drop(1)
将发生在整个数据帧中,这实际上会使其仅删除第一行。
If the above is true in that the statement is executed every time for the columns to process, how can we make that piece of code occur just once? Should we make a val of val ones = df.schema.map(c => c.name).drop(1)
每个数据帧只发生一次(在您的示例中,我们恰好有一个)。
关于scala - Spark Dataframe 上的 val 与 def 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54857469/
有人可以解释一下接下来的事情有什么区别吗? def self.up 定义 def self.down 下 最佳答案 self.up和up包含执行rake db:migrate时由迁移运行的代码。 se
我在从第三个(主)函数调用前两个函数时遇到问题。我相信我的编码正确(忽略大小和 x,y 坐标)来显示 di 的五边,但似乎无法弄清楚如何调用这些函数。 主要目标是显示 di 的五个面。 def dot
我想做这样的事情: class MyClass(Object): def ****(self): print self.__name __ MyClass.test() ->t
我只是环顾四周,以减少在 liquibase 上创建表的工作量和错误。 是否可以为表创建一组默认列? 列: 内部ID 可变字符 UUID 时间戳创建Ts 时间戳更新Ts int 锁定版本 约束 ID
在注释宏中,我枚举了一个类的成员,并且想要找到我找到的方法的类型。 所以我很高兴地遍历 body类的,并收集所有DefDef成员。 ...我无法进行类型检查。 对于每个 DefDef我尝试将其包装在
我正在查看的一些代码中的示例 class X { def k1 = column[Int]("k1") def k2 = column[Int]("k2") def * = (
我是一个时髦的初学者。 我很困惑是否使用了“def”。 def str = "hello" print str 对比 str = "hello" print str 从这个例子。结果是一样的。但我想知
我想做这样的事情: class Result<
我正在尝试理解这个函数。 我看到的是一个属性和类型被传递给了 opal () 方法。 然后type_name取值自 type只要type是 Symbol或 String .否则,name在 type
在此Haskell-like comprehensions implementation in Ruby有一些我在 Ruby 中从未见过的代码: class Array def +@ #
我的问题非常简单,但不幸的是我找不到解决方法。 我想运行一个 def A,它仅从 def B 返回多个值一次。 我写了这段代码: def A(): x = 1 y = 2 z
我在 def 声明中使用 Scalameta(v1.8.0) 注释: trait MyTrait { @MyDeclDef def f2(): Int } 定义的注释类只返回输入,如下所示:
写private[this] def与 private def 相比,在性能噪声比方面是有意义的?我知道这对 private[this] val 有影响超过 private val因为前者允许 sca
在下面的代码段(取自 Groovy Semantics Manual page )中,为什么要在赋值前加上关键字 def ? def x = 0 def y = 5 while ( y-- > 0 )
作为标题,Groovy中这两个定义的确切区别是什么? 也许是文档问题,我什么也找不到... 最佳答案 没有static的方法声明将方法标记为实例方法。带有static的声明将使此方法静态-可以在不创建
我正在使用 d3.js 强制导向图。它有节点和连接它们的链接。为了创建箭头,我使用 svg 和 d3 组合起来,如下所示: gA.svg.append('defs').selectAll('m
我经常看到包含 def execute(self) 和 def run() 的类 python 会像 C++ 中的 int main() 那样自动获取它吗? 最佳答案 Python 是一种解释型语言,
此代码无法编译: object Foo { implicit def toString(i: Int): String = i.toString def foo(x: String)
例如我需要在函数 def a[A:ClassManifest] 中访问 list 获得删除类。我可以使用 Predef.implicitly 函数,但在这种情况下,我的代码将与我使用完整形式 def
我知道scala中的空参数方法和无参数方法之间的用法差异,我的问题与生成的类文件有关。当我在javap中查看这两个类时,它们看起来完全相同: class Foo { def bar() = 123
我是一名优秀的程序员,十分优秀!