gpt4 book ai didi

python - 处理谷歌云中的多个对象

转载 作者:可可西里 更新时间:2023-11-01 15:12:45 25 4
gpt4 key购买 nike

我在 Google 存储桶中有几百个文件(100,000 个)。文件大小约为 2-10MB。我需要在这些文件中的每一个上应用一个简单的 python 函数(只是数据转换)。我需要从一个桶中读取 - 并行转换(python 函数) - 并存储在另一个桶中。我正在考虑一个简单的 Hadoop 或 Spark 集群来执行此操作。我以前在单个实例上使用并发线程来执行此操作,但我需要一种更健壮的方法。实现此目标的最佳方法是什么?

最佳答案

您可以使用最近发布的 Google Cloud Dataproc (截至 2015 年 10 月 5 日的测试版),它为您提供托管的 Hadoop 或 Spark 集群。它与 Google Cloud Storage 集成,因此您可以从存储桶中读取和写入数据。

您可以 submit jobs通过 gcloud、控制台或通过 SSH 连接到集群中的一台机器。

关于python - 处理谷歌云中的多个对象,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32960001/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com