gpt4 book ai didi

java - saveAsTextFile 性能改进

转载 作者:行者123 更新时间:2023-12-01 11:24:57 26 4
gpt4 key购买 nike

我使用了以下格式的数据源,最多 1500000

1
2
3
4
5
..
1500000

我使用了以下代码片段

JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");

JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);

rdd.saveAsTextFile("hdfs://yarncluster/Ouput");

集群中保存数据需要更多时间。还有其他方法可以提高性能吗?

最佳答案

您可以通过对大量分区调用重新分区来提高并行度。

关于java - saveAsTextFile 性能改进,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30892012/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com