gpt4 book ai didi

hadoop - 我可以在每个从节点中使用分段文件运行 Spark 吗?

转载 作者:可可西里 更新时间:2023-11-01 16:37:44 26 4
gpt4 key购买 nike

假设我有两个奴隶和一个主人。之前我已经在所有从属节点中复制并粘贴了相同的数据。

JavaPairRDD<IntWritable, VectorWritable> seqVectors = sc.sequenceFile(inputPath, IntWritable.class,
VectorWritable.class);

这里的inputpath不是HDFS路径,而是每个slave节点都可以访问的本地路径。但是现在我正在考虑这样一种情况,即每个从站都有部分数据,我想使用相同的代码,而不安装/使用 HDFS。但问题是在运行相同的代码后,程序运行没有任何错误但不产生任何结果。因为

  1. master 在“inputPath”中没有数据。
  2. slaves在“inputPath”中有部分数据,但master没有将其中的任何数据分发给它们以分配工作量。

我的问题是,在这种新情况下,如何在没有任何第三方程序的情况下运行我的程序?

最佳答案

你不能。如果你想运行 Spark

without installing/working with HDFS

(或其他分布式存储),您必须在每个节点上提供完整的数据副本,包括驱动程序。显然这在实践中不是很有用。

关于hadoop - 我可以在每个从节点中使用分段文件运行 Spark 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48486660/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com