gpt4 book ai didi

machine-learning - Julia ML : Is there a recommended data format for loading data to Flux, Knet,深度学习库

转载 作者:行者123 更新时间:2023-11-30 08:32:13 28 4
gpt4 key购买 nike

我使用 Tensorflow 进行深度学习工作,但我对 Julia 用于 ML 的一些功能很感兴趣。现在,在 Tensorflow 中, Protocol Buffer 有一个明确的标准,这意味着 TFRecords 格式是将大量数据集加载到 GPU 进行模型训练的最佳方式。我一直在阅读 Flux、KNET、文档以及其他论坛帖子,看看是否有关于最有效数据格式的任何特别建议。但我还没有找到。

我的问题是,Julia ML 库是否有推荐的数据格式来促进训练?换句话说,是否有任何由于性能不佳而应避免的明确数据集格式?

现在,我知道有一个 Protobuf.jl 库,因此用户仍然可以使用 Protocol Buffer 。我现在计划使用 Protocol Buffer ,因为这样我就可以为 Tensorflow 和 Julia 使用相同的数据格式。然而,我还发现了这篇有趣的 Reddit 帖子,内容是关于用户如何不使用 Protocol Buffer 而仅使用直接的 Julia 向量。

https://www.reddit.com/r/MachineLearning/comments/994dl7/d_hows_julia_language_mit_for_ml/

我了解到 Julia ML 库可能与数据存储格式无关。这意味着无论数据以什么格式存储,数据都会被解码为某种向量或矩阵格式。所以在这种情况下我可以使用任何格式。但只是想确保我没有错过文档中的任何内容,或者由于使用错误的数据存储格式而导致的问题或低性能。

最佳答案

对于内存中的使用,只需使用数组和向量。它们只是带有一些元数据的大的连续内存块。你真的找不到比这更好的了。

为了序列化到另一个 Julia 进程,Julia 将为您处理并使用 stdlib 序列化模块。

要序列化到磁盘,您应该只使用 Serialization.serialize (可能是压缩的),或者,如果您认为可能需要从另一个程序读取,或者您认为在完成数据之前会更改 Julia 版本您可以使用 BSON.jl 或 Feather.jl。

在不久的将来,JLSO.jl将是替代序列化的一个不错的选择。

关于machine-learning - Julia ML : Is there a recommended data format for loading data to Flux, Knet,深度学习库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53963797/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com