gpt4 book ai didi

hadoop - 从AWS s3提取文件样本并将其放置在s3中的另一个位置

转载 作者:行者123 更新时间:2023-12-02 21:31:34 25 4
gpt4 key购买 nike

始终可以使用s3distcp将文件(或文件集)复制到s3的另一个位置,但是可以使用Hadoop / EMR的mapred或任何其他功能来随机抽取s3distcp文件(或每第n行)文件到s3中的新位置。这样做的好处是节省了将数据复制到本地计算机并将其再次上传到s3的时间。

这是我要通过此过程优化的耗时代码。

aws s3 cp s3://... localLocation
cat localLocation | awk '{if(NR%10==0) print $0' > samp.txt
aws s3 cp samp.txt s3://..anotherLocation

最佳答案

从Amazon S3检索文件时,必须下载整个文件。不支持随机访问。

关于hadoop - 从AWS s3提取文件样本并将其放置在s3中的另一个位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34002232/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com