gpt4 book ai didi

cntk - CNTK randomizationWindow 行为是什么?

转载 作者:行者123 更新时间:2023-12-04 18:02:44 24 4
gpt4 key购买 nike

我有一个关于阅读器的 randomizationWindow 参数的快速问题。它在文档中说它控制内存中的数据量——但我有点不清楚它会对数据的随机性产生什么影响。如果训练数据文件以一种数据分布开始,并以另一种完全不同的分布结束,设置一个小于数据大小的随机化窗口是否会导致提供给训练器的数据不是来自同质分布?我只是想仔细检查一下。

最佳答案

要提供有关随机化/IO 的更多详细信息:

所有语料库/数据总是分成块。块有助于提高 IO 效率,因为块的所有序列都是一次性读取的(通常一个块是 32/64MB)。

在随机化方面,有两个步骤:

  • 所有块都是随机的
  • 给定 N 个样本的随机化窗口,随机化器创建一个由 M 个块组成的滚动窗口,其中总共有大约 N 个样本。此中的所有序列 滚动 窗口是随机的。当一个块的所有序列都被处理完后,随机化器可以释放它并开始异步加载下一个。
  • 关于cntk - CNTK randomizationWindow 行为是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41474708/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com