scala - Spark 流 : error in fileStream()-6ren

scala - Spark 流 : error in fileStream()

转载作者：行者123 更新时间：2023-12-03 23:24:00

28

4

我正在尝试在 Scala 中实现 Spark 流应用程序。我想使用 fileStream() 方法来处理新到达的文件以及 hadoop 目录中存在的旧文件。

我遵循了来自 stackoverflow 的两个线程的 fileStream() 实现，如下所示:

Scala Spark streaming fileStream

spark streaming fileStream

我使用 fileStream() 如下:

val linesRDD = ssc.fileStream[LongWritable, Text, TextInputFormat](inputDirectory, (t: org.apache.hadoop.fs.Path) => true, false).map(_._2.toString)

但我收到如下错误消息:

type arguments [org.apache.hadoop.io.LongWritable,org.apache.hadoop.io.Text,
org.apache.hadoop.mapred.TextInputFormat] conform to the bounds of none of the overloaded alternatives of value fileStream: [K, V, F <: org.apache.hadoop.mapreduce.InputFormat[K,V]](directory: String, filter: org.apache.hadoop.fs.Path ⇒ Boolean, newFilesOnly: Boolean, conf: org.apache.hadoop.conf.Configuration)(implicit evidence$12: scala.reflect.ClassTag[K], implicit evidence$13: scala.reflect.ClassTag[V], implicit evidence$14: scala.reflect.ClassTag[F])
org.apache.spark.streaming.dstream.InputDStream[(K, V)] <and> 
[K, V, F <: org.apache.hadoop.mapreduce.InputFormat[K,V]](directory:
String, filter: org.apache.hadoop.fs.Path ⇒ Boolean, newFilesOnly: Boolean)(implicit evidence$9: scala.reflect.ClassTag[K], implicit evidence$10: scala.reflect.ClassTag[V], 
implicit evidence$11: scala.reflect.ClassTag[F])
org.apache.spark.streaming.dstream.InputDStream[(K, V)] <and> [K, V, F <: org.apache.hadoop.mapreduce.InputFormat[K,V]](directory: String)(implicit evidence$6: scala.reflect.ClassTag[K], implicit evidence$7: scala.reflect.ClassTag[V], implicit evidence$8: scala.reflect.ClassTag[F])
org.apache.spark.streaming.dstream.InputDStream[(K, V)]

wrong number of type parameters for overloaded method value fileStream with alternatives: 
[K, V, F <: org.apache.hadoop.mapreduce.InputFormat[K,V]](directory: String, filter: org.apache.hadoop.fs.Path ⇒ Boolean, newFilesOnly: Boolean, conf: org.apache.hadoop.conf.Configuration)(implicit evidence$12: scala.reflect.ClassTag[K], implicit evidence$13: scala.reflect.ClassTag[V], implicit evidence$14: scala.reflect.ClassTag[F])
org.apache.spark.streaming.dstream.InputDStream[(K, V)] <and> [K, V, F <:     org.apache.hadoop.mapreduce.InputFormat[K,V]](directory: String, filter: org.apache.hadoop.fs.Path ⇒ Boolean, newFilesOnly: Boolean)(implicit evidence$9: scala.reflect.ClassTag[K], implicit evidence$10: scala.reflect.ClassTag[V], implicit evidence$11: scala.reflect.ClassTag[F])
org.apache.spark.streaming.dstream.InputDStream[(K, V)] <and> 
[K, V, F <: org.apache.hadoop.mapreduce.InputFormat[K,V]](directory: String)(implicit evidence$6: scala.reflect.ClassTag[K], implicit evidence$7: scala.reflect.ClassTag[V], implicit evidence$8: scala.reflect.ClassTag[F])
org.apache.spark.streaming.dstream.InputDStream[(K, V)]

我正在使用 Spark 1.4.1 和 hadoop 2.7.1 .在发布这个问题之前，我已经查看了在 stackoverflow 上讨论的不同实现，并且还引发了文档，但没有任何帮助。任何帮助，将不胜感激。

谢谢
拉杰尼什。

最佳答案

请在下面的示例 java 代码中找到正确的导入，它对我来说工作正常

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;

JavaStreamingContext jssc = SparkUtils.getStreamingContext("key", jsc);
//      JavaDStream<String> rawInput = jssc.textFileStream(inputPath);

        JavaPairInputDStream<LongWritable, Text> inputStream = jssc.fileStream(
                inputPath, LongWritable.class, Text.class,
                TextInputFormat.class, new Function<Path, Boolean>() {
                    @Override
                    public Boolean call(Path v1) throws Exception {
                        if ( v1.getName().contains("COPYING") ) {
                            // This eliminates staging files.
                            return Boolean.FALSE;
                        }
                        return Boolean.TRUE;
                    }
                }, true);
        JavaDStream<String> rawInput = inputStream.map(
                  new Function<Tuple2<LongWritable, Text>, String>() {
                    @Override
                    public String call(Tuple2<LongWritable, Text> v1) throws Exception {
                      return v1._2().toString();
                    }
                });
        log.info(tracePrefix + "Created the stream, Window Interval: " + windowInterval + ", Slide interval: " + slideInterval);
        rawInput.print();

关于scala - Spark 流 : error in fileStream()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33076339/

28

4

0

文章推荐： c# - DotVVM 重定向

文章推荐： regex - 提取字符串中最后一个句点之后的文本

文章推荐： r - 如何从本地文件安装 stringi(绝对不能上网)

文章推荐： symfony - 避免 Twig block 输出

c# - FileStream.BeginWrite 优于 FileStream.Write？
我需要对同一文件进行一批写入，但在文件内的不同位置。我想以尽可能最好的性能实现这一目标，因此查看了同步 FileStream.Write 和异步 FileStream.BeginWrite 方法。同
c# - FileStream.Flush() 和 FileStream.Flush(True) 有什么区别？
MSDN说FileStream.Flush(True) “还清除所有中间文件缓冲区。”。 “所有中间文件缓冲区”到底是什么意思？最佳答案它会将缓冲在文件系统缓存中的文件数据写入磁盘。该数据通常是根
c# - 将 FileStream 与 using 子句一起使用时，是否需要在 FileStream 上调用 DisposeAsync？
考虑以下摘自 Microsoft docs 的代码: using FileStream createStream = File.Create(fileName); // ...write to str
scala - 如何使用 `ssc.fileStream()` 读取 Parquet 文件？传递给 `ssc.fileStream()` 的类型是什么？
我对Spark的理解fileStream()方法是将三种类型作为参数:Key , Value , 和 Format .对于文本文件，适当的类型是:LongWritable , Text , 和 Tex
c# - 为什么 FileStream.Length 是 long 类型，但 FileStream.Read 参数 - offset 的长度较短？
为什么 FileStream.Length 是 long 类型，但 FileStream.Read 参数 - offset 有更短的长度 int 呢？布莱恩最佳答案 offset 参数告诉从哪里开
.net - FileStream 和内存使用
我编写了以下程序，其目的是创建一个给定大小的文件，其中包含一些随机数据。该程序运行良好，并完成了它应该做的事情。但是，我不明白为什么它会消耗 5GB 的 RAM(请参阅我的任务管理器的屏幕截图)。当我
.net - FileStream 是托管代码还是非托管代码？
我在一次采访中被问到这个问题，我说答案是 Managed。面试官似乎很惊讶。我的问题是即使它访问一个文件( native /非托管资源)，但这个类不是托管的吗？或者你认为我应该有一些后续问题以获得更多
.net - 网络掉线时在网络上使用 FileStream
我正在编写一些代码作为打开文件框架的一部分。该文件属于自定义类型，不应由我的应用程序的多个实例打开。为了停止打开多个文件，我使用文件流创建一个锁定文件，然后保持所述文件流打开。这似乎可以防止我的应用
java - 如何正确关闭FTPClient FileStream
我正在使用 Apache Commons Net 的 FTPClient 从位于服务器上的文件中读取内容。仅读取一次时效果很好。但是当我尝试读取第二个文件时，FTPClient 的 InputStre
C# 创建带偏移量的 FileStream
问题有没有办法在 C# 中创建带偏移量的 FileStream？例如，如果我在偏移量 100 处打开 SomeFile.bin，Stream.Position 将等于 0，但读取和写入将偏移 100
c# - Filestream 在读取时预先添加垃圾字符
我正在阅读一个简单的文本文件，其中包含使用文件流类的单行。但似乎 filestream.read 在开头添加了一些垃圾字符。代码下方。 using (var _fs = File.Open(_idF
c# - FileStream 不允许我在本地机器上创建文件？
我正在使用 FileStream 将 FTP 服务器的信息下载到我的 C:\驱动器上的目录中。出于某种原因，即使我什至尝试将目录权限设置为“所有人”访问权限，它也给了我这个异常(exception):
c# - FileStream 将缓冲区写入文件
我正在尝试通过将文件作为参数的 API 上传 .srt 文件。文件存储在服务器上，我正在使用 FileStream 和 StreamWriter 写入: string path = Server.M
c# - FileStream 自动删除临时文件？
我四处搜索了一下，但找不到能完美解决我的问题的东西。我有一些代码，即来 self 的数据库的 FileStream varbinary，并将其制作成客户端计算机上的文件，双击时可以在文件类型的默认应用
c# - FileStreaming 背后的原理
我最近在做一个涉及很多FileStreaming 的项目，这是我以前没有真正接触过的。为了尝试更好地熟悉这些方法的原理，我编写了一些代码(理论上)将文件从一个 dir 下载到另一个，并逐步完成，在我
c# - 当其中一个下载线程终止时解锁 FIleStream
我通过例如下载文件5 个线程。当其中一个线程完成下载文件部分时 - 它被中止，但所有其余线程都有 ThreadState = WaitSleepJoin 并且显然停止下载。如何解决？ while ((
c# - FileStream 很慢吗？
我试图将 5 GB 的 ISO 文件复制到具有 29 GB 可用空间的 32 GB 闪存驱动器上。 Windows 7 拒绝让我拖放文件到闪存驱动器，报告文件对于目标文件系统来说太大了。我最终了解到
c# - FileStream 及其缓冲策略
我发现将 BufferedStream 与 FileStream 结合使用没有意义，因为它有自己的缓冲策略。然而，我想知道一件事: FileStream fsWithBuffer = new File
c# - 我应该处理只读的 FileStream
我有一个只读的 FileStream，它是一个方法局部变量: public void SomeMethod() { var fileStream = File.Open(fileName, Fi
c# - FileStream，只产生一个结果？
我有两个文件流，它们从不同的文件中收集不同的信息: FileStream dataStruc = new FileStream("c:\\temp\\dataStruc.txt", FileMode.

首页

博学

6Ren·AI

商城

scala - Spark 流 : error in fileStream()