gpt4 book ai didi

apache-spark - 如何从HDFS Spark 加载文件及其与RDD的关系

转载 作者:行者123 更新时间:2023-12-02 22:07:13 27 4
gpt4 key购买 nike

如何从集群中的HDFS激发数据?
块如何转换为RDD?

可以说我有3个节点群集,并且我有一个名为log.txt的文件,该文件分为3个块。所有3个节点每个块都有一个。

如何Spark加载log.txt,以及如何将其转换为RDD?

最佳答案

Spark与任何HDFS客户端没有什么不同。

联系名称节点获取文件,它返回块的位置,然后HDFS客户端将从数据节点获取块。

块不是“转换为” RDD,而是RDD只是应用于从InputSplitInputFormat形成的Hadoop RecordReader上的元数据。 RDD是惰性计算的,因此它们不代表数据的传输或转换

关于apache-spark - 如何从HDFS Spark 加载文件及其与RDD的关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52467150/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com