gpt4 book ai didi

hadoop - 无法从 Hadoop 访问公共(public) S3 存储桶

转载 作者:可可西里 更新时间:2023-11-01 14:24:21 27 4
gpt4 key购买 nike

我正在使用 Hadoop 处理 Google Books ngram,它们作为 Hadoop 序列文件存储在 Amazon S3 中。

Hadoop 包括从 S3 读取的功能(使用 S3 存储桶作为虚拟“文件系统”),只需在文件名上指定 s3://或 s3n://协议(protocol)即可。

不幸的是,它需要您设置您的 AWS 访问 key 和 secret key 。由于我想读取的存储桶是公开的,所以我没有任何 key 可以使用。如果我使用自己的 key ,则无法从 ngrams 存储桶中读取(因为它不属于我的帐户)。

我如何从 Hadoop 使用存储在公共(public) S3 存储桶中的文件,而无需自己重新托管文件(这会变得非常昂贵,因为有几 TB 的数据)?

最佳答案

如果数据是公开的,您将不需要 AWS 访问 key 或 secret key ,因为您不会使用 s3n:// 变体。相反,您将使用公共(public) URL 变体,它将以 http://*.s3.amazonaws.com/*

开头

如果公共(public) URL 不可用,您可以尝试为每个 AWS 访问 key 和 secret key 传递一个空白字符串,看看会发生什么

关于hadoop - 无法从 Hadoop 访问公共(public) S3 存储桶,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11124949/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com