gpt4 book ai didi

apache-spark - 如何在 Spark 数据帧上训练神经网络自动编码器 (Keras)

转载 作者:行者123 更新时间:2023-12-03 21:18:14 26 4
gpt4 key购买 nike

我创建了一个非常大的 Spark 数据框 在我的集群上使用 PySpark,它太大而无法放入内存。我也有一个 带有 Keras 的自动编码器模型 ,它接收一个 Pandas 数据帧(内存对象)。

将这两个世界结合在一起的最佳方式是什么?

我发现了一些在 Spark 上提供深度学习的库,但似乎仅适用于 hyper parameter tuning或者不会支持像 Apache SystemML 这样的自动编码器

我肯定不是第一个在 Spark Dataframes 上训练神经网络的人。我在这里有一个概念上的差距,请帮助!

最佳答案

正如您提到的,Spark 中的 Pandas DF 是内存中的对象,不会分发训练。对于分布式训练,你必须依赖 Spark DF 和一些特定的第三方包来处理分布式训练:
你可以在这里找到信息:
https://docs.databricks.com/applications/machine-learning/train-model/distributed-training/index.html

关于apache-spark - 如何在 Spark 数据帧上训练神经网络自动编码器 (Keras),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53116808/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com