gpt4 book ai didi

machine-learning - 大型数据集的机器学习开发工作流程

转载 作者:行者123 更新时间:2023-11-30 09:47:52 25 4
gpt4 key购买 nike

当您拥有 300GB 的大型数据集而您的计算机只有 250GB 内存时,您会使用什么工作流程?

肯定会在本地使用开发集,但是您是否将 300GB 放在 S3 存储桶上用于生产,以便在不使用 AWS 时轻松关闭 AWS,并且在需要时轻松提取模型计算完成了吗?

我做了一些基本测量,从 s3 加载文件平均需要 5 秒。当文件 block 较大时,S3 的性能是否明显更好?

最佳答案

这取决于(像往常一样)。 :)

  1. 您可以尝试在加载期间过滤数据(损坏的示例、异常值等)。
  2. 如果您一次需要所有数据,您可以使用分布式计算(查看 http://spark.apache.org - 一种流行的分布式计算框架),并使用一些机器学习库(例如 https://spark.apache.org/mllib/ )。

关于machine-learning - 大型数据集的机器学习开发工作流程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49945528/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com