gpt4 book ai didi

tensorflow - 使用 tensorflow_datasets API 访问已下载的数据集

转载 作者:行者123 更新时间:2023-12-04 17:38:50 24 4
gpt4 key购买 nike

我正在尝试使用最近发布的 tensorflow_dataset API 在 Open Images Dataset 上训练 Keras 模型。数据集大小约为 570 GB。我用以下代码下载了数据:

import tensorflow_datasets as tfds
import tensorflow as tf

open_images_dataset = tfds.image.OpenImagesV4()
open_images_dataset.download_and_prepare(download_dir="/notebooks/dataset/")

下载完成后,与我的 jupyter 笔记本的连接以某种方式中断,但提取似乎也完成了,至少所有下载的文件在“提取”文件夹中都有对应的文件。但是,我现在无法访问下载的数据:
tfds.load(name="open_images_v4", data_dir="/notebooks/open_images_dataset/extracted/", download=False)

这只会出现以下错误:
AssertionError: Dataset open_images_v4: could not find data in /notebooks/open_images_dataset/extracted/. Please make sure to call dataset_builder.download_and_prepare(), or pass download=True to tfds.load() before trying to access the tf.data.Dataset object.

当我调用函数 download_and_prepare() 时,它只会再次下载整个数据集。

我在这里错过了什么吗?

编辑:
下载后“解压”下的文件夹有18个.tar.gz文件。

最佳答案

这是 tensorflow-datasets 1.0.1 和 tensorflow 2.0。

文件夹层次结构应该是这样的:

/notebooks/open_images_dataset/extracted/open_images_v4/0.1.0

所有数据集都有一个版本。然后可以像这样加载数据。

ds = tf.load('open_images_v4', data_dir='/notebooks/open_images_dataset/extracted', download=False)

我没有 open_images_v4 数据。我将 cifar10 数据放入名为 open_images_v4 的文件夹中,以检查 tensorflow_datasets 期望的文件夹结构。

关于tensorflow - 使用 tensorflow_datasets API 访问已下载的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55475671/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com