gpt4 book ai didi

hadoop - s3distcp srcPattern 不工作?

转载 作者:可可西里 更新时间:2023-11-01 14:21:48 24 4
gpt4 key购买 nike

我在 S3 中有这样的文件:

1-2013-08-22-22-something
2-2013-08-22-22-something
etc

没有 srcPattern 我可以轻松地从存储桶中获取所有文件,但我想获取特定的前缀,例如所有的 1。我试过使用 srcPattern,但由于某种原因它没有获取任何文件。

我当前的命令是:

elastic-mapreduce --jobflow $JOBFLOW --jar /home/hadoop/lib/emr-s3distcp-1.0.jar \
--args '--src,s3n://some-bucket/,--dest,hdfs:///hdfs-input,--srcPattern,[0-9]-.*' \
--step-name "copying over s3 files"

最佳答案

原来你需要 .* 在正则表达式的前面

例如我需要

.*[0-9]-.*

我猜是因为源模式还包含存储桶名称?

关于hadoop - s3distcp srcPattern 不工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18422951/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com