gpt4 book ai didi

scala - 如何更有效地从 spark 重命名 hdfs 中的文件?

转载 作者:行者123 更新时间:2023-12-01 12:19:40 26 4
gpt4 key购买 nike

我有 450K 个 JSON,我想根据某些规则在 hdfs 中重命名它们。为了简单起见,我只是为它们中的每一个添加一个后缀 .finished 。A 成功地做到了这一点,代码如下:

import org.apache.hadoop.fs._

val hdfs = FileSystem.get(sc.hadoopConfiguration)
val files = hdfs.listStatus(new Path(pathToJson))
val originalPath = files.map(_.getPath())

for(i <- originalPath.indices)
{
hdfs.rename(originalPath(i), originalPath(i).suffix(".finished"))
}

但是重命名它们需要 12 分钟。有没有办法让它更快? (也许并行化)我使用 spark 1.6.0。

最佳答案

原始路径.par.foreach( e => hdfs.rename(e,e.suffix("finish")))

关于scala - 如何更有效地从 spark 重命名 hdfs 中的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45430588/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com