gpt4 book ai didi

python - Google Colab 在处理包含大量文件的云端硬盘文件夹时遇到问题

转载 作者:行者123 更新时间:2023-12-05 07:25:54 28 4
gpt4 key购买 nike

我已将多个文件夹从云端硬盘导入到 Google Colab。较小的文件夹在列出目录时工作正常,但当我尝试列出较大文件夹中的目录时,Colab 给我一个错误。

我知道还有其他列出目录的方法,但当我尝试访问文件进行训练时,同样的问题会导致问题进一步发生。

我正在使用它来导入文件:

from google.colab import drive
drive.mount('/content/drive')

然后如下描述文件夹:

TRAIN = '../content/drive/My Drive/train/'
TEST = '../content/drive/My Drive/test/'

当我尝试执行以下操作时:

print(os.listdir(TEST))
print(os.listdir(TRAIN))

TEST 打印正常。它有大约 8000 个文件(所有图像)。

TRAIN 有时打印,有时不打印!它有大约 32,000 个文件(也是所有图像)。当我尝试运行它时它会打印出来:

OSError: [Errno 5] Input/output error: '../content/drive/My Drive/train/'

有谁知道如何在 Google colab 中解决这个问题?

我发现,如果在导入文件后我等待一段时间然后运行打印,它会运行,这表明 Colab 需要一段时间来处理来自 Drive 的文件,即使在单元格导入停止运行后也是如此。

最佳答案

当目录中的文件数量变大时,驱动器 FUSE 操作可能会超时。

Drive 目录的 I/O 操作与目录中的文件数成正比。由于FUSE客户端有固定的超时时间,当文件数量足够大时,目录操作会失败。

解决方法是将文件组织到子目录中,这样单个目录中的文件或文件夹的数量就不会变得太大。

关于python - Google Colab 在处理包含大量文件的云端硬盘文件夹时遇到问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54660967/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com