gpt4 book ai didi

java - 数据集 javaRDD() 性能

转载 作者:行者123 更新时间:2023-12-02 02:39:08 24 4
gpt4 key购买 nike

我正在使用 Spark SQLSpark 应用程序中从 Cassandra 检索数据。数据以 DataSet 形式检索。但是,我需要使用 javaRDD() 函数将此数据集转换为 JavaRDD。可以用,不过需要2个小时左右。这次是否需要调整一些参数来增强?

最佳答案

数据集 API 构建在 SparkSQL 引擎之上,它使用 Catalyst 生成优化的逻辑和物理查询计划。在 R、Java、Scala 或 Python DataFrame/Dataset API 中,所有关系类型查询都经过相同的代码优化器,从而提供空间和速度效率。虽然 Dataset[T] 类型化 API 针对数据工程任务进行了优化,但 非类型化 Dataset[Row](DataFrame 的别名)甚至是速度更快,适合交互式分析。

了解更多详情Spark RDD vs Dataset performance

enter image description here

关于java - 数据集 javaRDD() 性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45772907/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com