gpt4 book ai didi

python - 谷歌地球引擎: Exporting MODIS images from GEE to AWS S3 bucket

转载 作者:太空宇宙 更新时间:2023-11-03 14:46:23 25 4
gpt4 key购买 nike

我目前正在开发一个使用 MODIS 数据集的机器学习项目。由于我的PC无法满足该项目的计算要求,所以我使用了AWS服务器。现在的问题是 Earth Engine 正在将图像导出到 Google Drive 或 Google Cloud Storage,但我希望将它们导出到我的 S3 存储桶。

我遇到过建议将数据下载到本地存储然后将其上传到 S3 存储桶的答案。考虑到庞大的数据集和我糟糕的数据速度,我需要很长时间才能做到这一点。因此,我想使用 Earth Engine 将它们直接导出到我的 S3 存储桶。

我已浏览了发生导出的文档 ( ee.batch.Export.image )。我正在考虑编写一个函数,将 Geotiff 图像导出到 AWS S3 存储桶,而不是 Google Drive 或云存储。

附注

  • 我已经使用 Amazon MODIS 公共(public)数据集进行了验证,但 Amazon 未提供我想要的数据集(MOD09A1 和其他一些数据集)。
  • 我的电脑上安装了 Windows 10。

最佳答案

MODIS 图像已位于 AWS S3 上 ( https://aws.amazon.com/public-datasets/modis/ )

但是,对于任何其他数据集来说,这都是一个有趣的问题,这里有一些需要考虑的事情

1) 目前,Google Earth Engine 只能写入 Google Cloud Storage Buckets (GCS)(免费,最多 5 GB)或 Google Drive(也有 15 GB 的限制,包括您的 Gmail)。因此,为了能够在推送到 AWS S3 之前将这些镜像下载到本地驱动器,您需要确保 GCS 或驱动器上有足够的可用空间。

2) Google Earth Engine 不会导出元数据,并且如果超过特定文件大小限制(需要记住某些事项),则会分割大型 GeoTiff,以防您希望在上传到 AWS 之前将分割的图像镶嵌到单个图像中。您还可以将属性作为元数据导出为 CSV 或 kml 文件。

3) 一旦您知道 GCS 或 Google Drive 中有足够的缓冲区空间,理想的方法是

  • 从 EE 推送到 Drive/GCS
  • 从 Drive/GCS 拉取到本地,然后推送到 AWS(如果您想使用 Google 的网络速度而不是客户端资源来执行此操作,您可以启动 always free model from Google 下的一个小型微型实例)
  • 不使用客户端资源的另一种方法是使用网络集成服务,例如,Zapier 可以帮助您将 Drive 连接到 AWS,因为新文件会被复制到 AWS,您可以使用传入的新文件作为触发器)。 [我没有尝试过,但我知道可以使用 Zapier 或 IFTTT 来完成。

  • 定期检查您的云存储并在文件复制到 GCS 时删除您基本上可以检查文件或文件夹是否同步,然后删除 GCS/Drive 上的文件以再次释放空间并重复此过程。

我确信其他人可能对此有一些其他很好的建议,但这只是我的做法。希望有帮助

山姆

关于python - 谷歌地球引擎: Exporting MODIS images from GEE to AWS S3 bucket,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46209576/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com