gpt4 book ai didi

scala - spark中的RDD是什么

转载 作者:可可西里 更新时间:2023-11-01 14:06:43 25 4
gpt4 key购买 nike

定义说:

RDD is immutable distributed collection of objects

我不太明白这是什么意思。它像存储在硬盘上的数据(分区对象)吗?如果是这样,那么 RDD 为什么可以有用户定义的类(例如 java、scala 或 python)

来自此链接:https://www.safaribooksonline.com/library/view/learning-spark/9781449359034/ch03.html它提到:

Users create RDDs in two ways: by loading an external dataset, or by distributing a collection of objects (e.g., a list or set) in their driver program

我真的很困惑一般地理解 RDD 以及与 spark 和 hadoop 的关系。

有人可以帮忙吗

最佳答案

从本质上讲,RDD 是一组数据的 Spark 表示,分布在多台机器上,具有可让您对其进行操作的 API。 RDD 可以来自任何数据源,例如文本文件、通过 JDBC 的数据库等。

正式定义是:

RDDs are fault-tolerant, parallel data structures that let users explicitly persist intermediate results in memory, control their partitioning to optimize data placement, and manipulate them using a rich set of operators.

如果您想了解什么是 RDD 的完整详细信息,请阅读 Spark 核心学术论文之一,Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing

关于scala - spark中的RDD是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34433027/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com