gpt4 book ai didi

hadoop - 当本地模式下数据不适合 RAM 时,如何设置 Apache Spark 以使用本地硬盘?

转载 作者:可可西里 更新时间:2023-11-01 14:19:32 25 4
gpt4 key购买 nike

我有 50 GB 的数据集,不适合我工作计算机的 8 GB RAM,但它有 1 TB 的本地硬盘。

以下来自官方文档的链接提到,如果数据不适合内存,Spark 可以使用本地硬盘。

http://spark.apache.org/docs/latest/hardware-provisioning.html

Local Disks

While Spark can perform a lot of its computation in memory, it still uses local disks to store data that doesn’t fit in RAM, as well as to preserve intermediate output between stages.

对我来说,计算时间根本不是优先事项,但由于缺乏替代选择,将数据装入单台计算机的 RAM/硬盘进行处理更为重要。

注意:我正在寻找一种包含以下项目

的解决方案
  1. 增加内存
  2. 采样并减少数据大小
  3. 使用云或集群计算机

我的最终目标是使用 Spark MLLIB 构建机器学习模型。我正在寻找现实生活中的实用解决方案,人们成功地使用 Spark 在一台计算机上以独立/本地模式对不适合 RAM 的数据进行操作。有人在没有重大限制的情况下成功地做到了这一点吗?

问题

  1. SAS具有类似的核外处理能力,使用它可以同时使用 RAM 和本地硬盘进行模型构建等。当数据超过 RAM 大小时,是否可以使 Spark 以相同的方式工作?

    <
  2. SAS 将完整的数据集以“.sas7bdat”格式持久化到硬盘,Spark 可以做类似的持久化到硬盘吗?

  3. 如果可能,如何为此目的安装和配置 Spark?

最佳答案

http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence您可以根据需要使用各种持久性模型。 MEMORY_AND_DISK 可以解决您的问题。如果您想要更好的性能,请使用以序列化方式存储数据的 MEMORY_AND_DISK_SER。

关于hadoop - 当本地模式下数据不适合 RAM 时,如何设置 Apache Spark 以使用本地硬盘?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37266596/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com