gpt4 book ai didi

apache-spark - joinWithCassandraTable() 是懒惰的吗?

转载 作者:行者123 更新时间:2023-12-04 04:42:52 25 4
gpt4 key购买 nike

我正在使用 Spark 1.2.1 和 spark-cassandra-connector :

//join with cassandra
val rdd = some_array.map(x => SomeClass(x._1,x._2)).joinWithCassandraTable(keyspace, some_table)
println(timer, "Join")

//get only the jsons and create rdd temp table
val jsons = rdd.map(_._2.getString("this"))
val jsonSchemaRDD = sqlContext.jsonRDD(jsons)
jsonSchemaRDD.registerTempTable("this_json")
println(timer, "Map")

输出是:

Timer "Join"- 558 ms
Timer "Map"- 290284 ms

我猜“joinWithCassandraTable()”函数是惰性的,如果是这样,是什么启动了它?

最佳答案

实际上,这里将触发评估的部分是 sqlContext.jsonRDD。由于您不提供 schema,它必须具体化 jsons 才能推断它。

joinWithCassandraTable 有点类似,因为它必须连接到 Cassandra 并获取所需的元数据。参见 Apache Spark: Driver (instead of just the Executors) tries to connect to Cassandra

关于apache-spark - joinWithCassandraTable() 是懒惰的吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34858343/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com