gpt4 book ai didi

amazon-web-services - AWS SageMaker 超大数据集

转载 作者:行者123 更新时间:2023-12-01 12:14:23 26 4
gpt4 key购买 nike

我有一个 500GB 的 csv 文件和一个 1.5 TB 数据的 mysql 数据库,我想在其上运行 aws sagemaker 分类和回归算法以及随机森林。

aws sagemaker 可以支持吗?可以批量或分块读取和训练模型吗?任何例子

最佳答案

Amazon SageMaker 专为此类规模而设计,可以使用它在非常大的数据集上进行训练。要利用服务的可扩展性,您应该考虑对当前实践进行一些修改,主要围绕分布式培训。

如果您想使用分布式训练来实现更快的训练(“单个实例 100 小时的成本与 100 个实例的 1 小时完全相同,只是快 100 倍”)、更具可扩展性(“如果您有 10 倍的数据,您只需添加 10 倍以上的实例,一切都正常运行”)并且更加可靠,因为每个实例仅处理一小部分数据集或模型,并且不会耗尽磁盘或内存空间。

如何以一种仍然高效准确的分布式方式实现 ML 算法并不明显。 Amazon SageMaker 具有经典 ML 算法的现代实现,例如 Linear Learner、K-means、PCA、XGBoost 等,支持分布式训练,可以扩展到此类数据集大小。从一些基准测试来看,与其他分布式训练实现(例如 Spark MLLib)相比,这些实现可以快 10 倍。你可以在这个笔记本中看到一些例子:https://github.com/awslabs/amazon-sagemaker-workshop/blob/master/notebooks/video-game-sales-xgboost.ipynb

规模的另一个方面是数据文件。数据不应位于单个文件中,因为它会限制在用于分布式训练的集群中分发数据的能力。借助 SageMaker,您可以决定如何使用来自 Amazon S3 的数据文件。它可以处于完全复制模式,其中所有数据都复制到所有工作人员,但也可以通过 key 分片,将数据分布到工作人员之间,并可以进一步加快培训速度。你可以在这个笔记本中看到一些例子:https://github.com/awslabs/amazon-sagemaker-examples/tree/master/advanced_functionality/data_distribution_types

关于amazon-web-services - AWS SageMaker 超大数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49372161/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com