gpt4 book ai didi

python - Chainer 迭代器,用于包含多个示例的文件,无需预加载

转载 作者:行者123 更新时间:2023-11-30 09:18:27 24 4
gpt4 key购买 nike

我有超过 100,000 个文件,每个文件包含 20 多个示例。每个文件的样本数量不同。如何在 Chainer 中创建批量大小约为 10 的迭代器,而无需预先加载内存中的所有文件?

最佳答案

我认为你可以使用DatasetMixin类来定义您自己的数据集。您可以覆盖get_example(i)提取方法i -th 数据,这样当你需要 get_example(i) 里面的数据时就可以加载该文件。但是,它仍然需要“预索引”,这意味着您需要定义哪个i -th 数据对应哪个文件。

以下是如何定义自己的引用DatasetMixin类。

引用: -Chainer v3 tutorial for beginner (Japanese) -Create dataset class from your own data with DatasetMixin

请参阅使用 DatasetMixin 的官方示例按需加载图像: https://github.com/chainer/chainer/blob/master/examples/imagenet/train_imagenet.py#L39

关于python - Chainer 迭代器,用于包含多个示例的文件,无需预加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49212385/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com