gpt4 book ai didi

Azure 导入/导出工具 dataset.csv 和多个 session 文件夹

转载 作者:行者123 更新时间:2023-12-03 04:26:20 25 4
gpt4 key购买 nike

我正在将大量数据复制到 Azure Blob 存储区域。我的源数据集有大量我不想移动的文件,因此我的第一个想法是创建一个仅包含我想要复制的文件的 DataSet.csv 文件。作为测试,我创建了一个 csv 文件,其中每一行都是我想要包含的单个文件。

BasePath,DstBlobPathOrPrefix,BlobType,Disposition,MetadataFile,PropertiesFile
"\\SERVER\Share\Folder1\Item1\Page1\full.jpg","containername/Src/Folder1/Item1/Page1/full.jpg",BlockBlob,overwrite,"None",None
"\\SERVER\Share\Folder1\Item1\Page1\thumb.jpg","containername/Src/Folder1/Item1/Page1/thumb.jpg",BlockBlob,overwrite,"None",None
etc.


当我运行导入/导出工具 (WAImportExport.exe) 时,它似乎在目标上为每个文件创建一个文件夹,因此它最终看起来像:
session #1
- session #1-0
- session #1-1
- session #1-2
等等

所有文件共享相同的基数,但会在 CSV 中输出其文件名。有什么方法可以避免这种情况,以便所有文件都进入一个“session#1”文件夹?如果可能的话,我希望避免在目标驱动器上创建 N 千个文件夹。

最佳答案

我认为您不必担心文件在磁盘上的存储方式,因为它们将被转换回您在 .csv 文件中指定的目录结构。

这就是documentation说:

How does the WAImportExport tool work on multiple source dir and disks?

If the data size is greater than the disk size, the WAImportExport tool will distribute the data across the disks in an optimized way. The data copy to multiple disks can be done in parallel or sequentially. There is no limit on the number of disks the data can be written to simultaneously. The tool will distribute data based on disk size and folder size. It will select the disk that is most optimized for the object-size. The data when uploaded to the storage account will be converged back to the specified directory structure.

关于Azure 导入/导出工具 dataset.csv 和多个 session 文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42955941/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com