gpt4 book ai didi

apache-spark - Spark RDD是存储在 block 中还是存储在内存中?关于Spark的查询很少

转载 作者:行者123 更新时间:2023-12-01 08:46:35 25 4
gpt4 key购买 nike

关于Spark RDD的问题很少。有人可以启发我。

  • 我可以看到RDD分布在各个节点上,这是否意味着
    分布式RDD缓存在每个节点的内存中,或将RDD数据
    驻留在hdfs磁盘上。或仅当任何应用程序运行RDD数据时,
    缓存在内存中?
  • 我的理解是,当我基于存在的文件创建RDD时
    在hdfs块上,RDD将首次从以下位置读取数据(I / O操作)
    块,然后将其持久地缓存。至少要有一次
    从磁盘读取数据,是真的吗???
  • 是否可以将外部数据直接缓存到RDD中?
    首先将数据存储在hdfs中,然后从hdfs块加载到RDD中的方法是什么?
    目的是先将数据存储到hdfs,然后再将其加载到
    在内存中会出现延迟?
  • 最佳答案

  • Rdd是类似于数组和列表的数据结构。当您在本地模式下创建RDD时(例如:加载文件),它将存储在笔记本电脑中。如果您使用的是hdfs,它将存储在hdfs中。记住在磁盘上。
    如果要将其存储在高速缓存中(在RAM中),则可以使用cache()函数。
  • 希望您也从第一个问题中得到第二个问题的答案。
  • 是的,您可以直接从笔记本电脑加载数据,而无需将其加载到hdfs中。
  • val newfile = sc.textFile("file:///home/user/sample.txt")
    指定文件路径。
    默认情况下,spark将hdfs作为存储,您可以使用上述行来更改它。

    不要忘记放三个///:
    file:///    

    关于apache-spark - Spark RDD是存储在 block 中还是存储在内存中?关于Spark的查询很少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36533847/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com