gpt4 book ai didi

hadoop - 在 Hadoop/EMR 中每个键在 S3 中输出一个文件

转载 作者:行者123 更新时间:2023-12-02 21:34:28 25 4
gpt4 key购买 nike

通过 hadoop/EMR 处理输出的每个键是否可以在 S3 中有一个文件?将有数千万个 key 。每个 key 经过 EMR 处理后都会有数百 KB 的数据。我想为 S3 中的每个键生成一个文件。

我能想到的唯一方法是直接从映射器写入 S3。有什么优点/缺点?还有其他选择吗?另外,如果我必须以加密格式编写它,我该怎么做?

谢谢,

-阿尼尔

最佳答案

对于问题的第一部分,您可能会使用 MultipleOutputFormat 为每个键创建一个输出文件。我从来没有用数百万个键做到这一点,所以你的结果可能会有所不同。见 https://hadoop.apache.org/docs/r2.4.1/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

对于第二部分,您可以在 EMR 集群和 s3 上设置加密,以便透明地处理。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-input-sse.html .

关于hadoop - 在 Hadoop/EMR 中每个键在 S3 中输出一个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33268366/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com