gpt4 book ai didi

java - 如何从Spark中的序列文件中提取行的范围?

转载 作者:行者123 更新时间:2023-12-02 22:01:05 25 4
gpt4 key购买 nike

假设我有一个很大的序列文件,但是我只想在本地处理前1000行。我怎样才能做到这一点?

目前我的代码看起来像这样

JavaPairRDD<IntWritable,VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class, VectorWritable.class);

最佳答案

您应该做的是这些parallelizearray:

JavaPairRDD<IntWritable,VectorWritable> RDDwith1000 = sc.parallelize(seqVectors.take(1000));

参见 here及以下的简单示例:

enter image description here

关于java - 如何从Spark中的序列文件中提取行的范围?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41747036/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com