gpt4 book ai didi

hadoop - 加入 Spark 太慢了。有什么办法可以优化吗?

转载 作者:可可西里 更新时间:2023-11-01 14:46:59 27 4
gpt4 key购买 nike

这是我的场景。 HDFS 中有两个数据源。一个是具有 20,000 行的元素列表,而另一个由具有相同元素类型的 3,000,000,000 行组成。我打算计算 dataset2 中的行数,其元素存在于 dataset1 中。

代码片段如下:

val conf = new SparkConf().setAppName("test")
val sc = new SparkContext(conf)
val ds1Rdd = sc.textFile("/dataset_1").keyBy(line => line)
val ds2Rdd = sc.textFile("/dataset_2").keyBy(line => line)
println(ds1Rdd.join(ds2Rdd).count())

我可以从 Spark 监视器网页上看到事件阶段总是停留在 join 过程中。

我的执行参数是--master yarn-cluster --num-executors 32 --driver-memory 8g --executor-memory 4g --executor-cores 4

有什么可以优化的吗?

最佳答案

我想 Spark 中的 Map-Side Join ( http://dmtolpeko.com/2015/02/20/map-side-join-in-spark/ ) 将解决您的问题。您可以广播数据集 1,然后执行 Map-Side Join。

关于hadoop - 加入 Spark 太慢了。有什么办法可以优化吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31106868/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com