gpt4 book ai didi

scala - Spark 流文件流

转载 作者:行者123 更新时间:2023-12-04 03:58:38 25 4
gpt4 key购买 nike

我正在使用 Spark 流进行编程,但在使用 scala 时遇到了一些问题。我正在尝试使用函数 StreamingContext.fileStream

这个函数的定义是这样的:

def fileStream[K, V, F <: InputFormat[K, V]](directory: String)(implicit arg0: ClassManifest[K], arg1: ClassManifest[V], arg2: ClassManifest[F]): DStream[(K, V)]

创建一个输入流,用于监视与 Hadoop 兼容的文件系统中的新文件,并使用给定的键值类型和输入格式读取它们。以 . 开头的文件名被忽略。
ķ
读取 HDFS 文件的 key 类型

读取 HDFS 文件的值类型
F
读取 HDFS 文件的输入格式
目录
用于监视新文件的 HDFS 目录

我不知道如何传递 Key 和 Value 的类型。
我在 Spark 流中的代码:
val ssc = new StreamingContext(args(0), "StreamingReceiver", Seconds(1),
System.getenv("SPARK_HOME"), Seq("/home/mesos/StreamingReceiver.jar"))

// Create a NetworkInputDStream on target ip:port and count the
val lines = ssc.fileStream("/home/sequenceFile")

编写hadoop文件的Java代码:
public class MyDriver {

private static final String[] DATA = { "One, two, buckle my shoe",
"Three, four, shut the door", "Five, six, pick up sticks",
"Seven, eight, lay them straight", "Nine, ten, a big fat hen" };

public static void main(String[] args) throws IOException {
String uri = args[0];
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
Path path = new Path(uri);
IntWritable key = new IntWritable();
Text value = new Text();
SequenceFile.Writer writer = null;
try {
writer = SequenceFile.createWriter(fs, conf, path, key.getClass(),
value.getClass());
for (int i = 0; i < 100; i++) {
key.set(100 - i);
value.set(DATA[i % DATA.length]);
System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key,
value);
writer.append(key, value);
}
} finally {
IOUtils.closeStream(writer);
}
}

}

最佳答案

如果你想使用 fileStream ,您将不得不在调用它时为其提供所有 3 种类型的参数。你需要知道你的Key , ValueInputFormat类型在调用它之前。如果您的类型是 LongWritable , TextTextInputFormat , 你会调用 fileStream像这样:

val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/sequenceFile")

如果这 3 种类型恰好是您的类型,那么您可能想要使用 textFileStream相反,因为它不需要任何类型参数并委托(delegate)给 fileStream使用我提到的这 3 种类型。使用它看起来像这样:
val lines = ssc.textFileStream("/home/sequenceFile")

关于scala - Spark 流文件流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16560833/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com