scala - 为什么 Spark 应用程序以 “ClassNotFoundException: Failed to find data source: kafka” 作为带有 sbt 程序集的 uber-jar 失败？-6ren

scala - 为什么 Spark 应用程序以 “ClassNotFoundException: Failed to find data source: kafka” 作为带有 sbt 程序集的 uber-jar 失败？

转载作者：行者123 更新时间：2023-12-03 11:48:16

我正在尝试运行类似 StructuredKafkaWordCount 的示例.我从 Spark Structured Streaming Programming guide 开始.

我的代码是

package io.boontadata.spark.job1

import org.apache.spark.sql.SparkSession

object DirectKafkaAggregateEvents {
  val FIELD_MESSAGE_ID = 0
  val FIELD_DEVICE_ID = 1
  val FIELD_TIMESTAMP = 2
  val FIELD_CATEGORY = 3
  val FIELD_MEASURE1 = 4
  val FIELD_MEASURE2 = 5

  def main(args: Array[String]) {
    if (args.length < 3) {
      System.err.println(s"""
        |Usage: DirectKafkaAggregateEvents <brokers> <subscribeType> <topics>
        |  <brokers> is a list of one or more Kafka brokers
        |  <subscribeType> sample value: subscribe
        |  <topics> is a list of one or more kafka topics to consume from
        |
        """.stripMargin)
      System.exit(1)
    }

    val Array(bootstrapServers, subscribeType, topics) = args

    val spark = SparkSession
      .builder
      .appName("boontadata-spark-job1")
      .getOrCreate()

    import spark.implicits._

    // Create DataSet representing the stream of input lines from kafka
    val lines = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", bootstrapServers)
      .option(subscribeType, topics)
      .load()
      .selectExpr("CAST(value AS STRING)")
      .as[String]

    // Generate running word count
    val wordCounts = lines.flatMap(_.split(" ")).groupBy("value").count()

    // Start running the query that prints the running counts to the console
    val query = wordCounts.writeStream
      .outputMode("complete")
      .format("console")
      .start()

    query.awaitTermination()
  }

}

我添加了以下 sbt 文件:

构建.sbt:

name := "boontadata-spark-job1"
version := "0.1"
scalaVersion := "2.11.7"

libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.0.2" % "provided"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % "2.0.2" % "provided"
libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "2.0.2" % "provided"
libraryDependencies += "org.apache.spark" % "spark-sql-kafka-0-10_2.11" % "2.0.2"
libraryDependencies += "org.apache.spark" % "spark-streaming-kafka-0-10_2.11" % "2.0.2"
libraryDependencies += "org.apache.kafka" % "kafka-clients" % "0.10.1.1"
libraryDependencies += "org.apache.kafka" % "kafka_2.11" % "0.10.1.1"

// META-INF discarding
assemblyMergeStrategy in assembly := { 
   {
    case PathList("META-INF", xs @ _*) => MergeStrategy.discard
    case x => MergeStrategy.first
   }
}

我还添加了 project/assembly.sbt

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.3")

这将创建一个带有非 provided 的 Uber jar jar 。

我提交以下行:

spark-submit boontadata-spark-job1-assembly-0.1.jar ks1:9092,ks2:9092,ks3:9092 subscribe sampletopic

但我收到此运行时错误:

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: kafka. Please find packages at https://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projects
        at org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:148)
        at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:79)
        at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:79)
        at org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:218)
        at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:80)
        at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:80)
        at org.apache.spark.sql.execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30)
        at org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:124)
        at io.boontadata.spark.job1.DirectKafkaAggregateEvents$.main(StreamingJob.scala:41)
        at io.boontadata.spark.job1.DirectKafkaAggregateEvents.main(StreamingJob.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:736)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:185)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:210)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:124)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132)
        at scala.util.Try$.apply(Try.scala:192)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5.apply(DataSource.scala:132)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5.apply(DataSource.scala:132)
        at scala.util.Try.orElse(Try.scala:84)
        at org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:132)
        ... 18 more
16/12/23 13:32:48 INFO spark.SparkContext: Invoking stop() from shutdown hook

有没有办法知道哪个类没有找到，以便我可以在 maven.org 存储库中搜索该类。
lookupDataSource源代码似乎位于 https://github.com/apache/spark/blob/83a6ace0d1be44f70e768348ae6688798c84343e/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/DataSource.scala 的第 543 行但我找不到与 Kafka 数据源的直接链接......

完整的源代码在这里: https://github.com/boontadata/boontadata-streams/tree/ad0d0134ddb7664d359c8dca40f1d16ddd94053f

最佳答案

我试过这样它对我有用。像这样提交，一旦您有任何问题，请告诉我

./spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.1.0 --class com.inndata.StructuredStreaming.Kafka --master local[*] /Users/apple/.m2/repository/com/inndata/StructuredStreaming/0.0.1SNAPSHOT/StructuredStreaming-0.0.1-SNAPSHOT.jar

关于scala - 为什么 Spark 应用程序以 “ClassNotFoundException: Failed to find data source: kafka” 作为带有 sbt 程序集的 uber-jar 失败？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41303037/

文章推荐： powershell - PowerShell 中的一元 "Not"或位翻转运算符？

文章推荐： visual-studio-2017 - Visual Studio 15编译失败-清理项目

文章推荐： rxjs - RxJs Observables嵌套订阅吗？

文章推荐： google-fabric - 在Answers Fabric中删除自定义事件

java - 运行 jar 时出现 ClassNotFoundException，但直接运行应用程序时不会出现 ClassNotFoundException
我的应用在尝试访问外部依赖项时遇到 NoClassDefFoundError，但仅限于作为 jar 运行时。使用 Intellij，我有一个带有主类的简单应用程序，其中包含一些对外部依赖项(例如 s
java - 获取 "ClassNotFoundException: ResteasyBootstrap"和 "ClassNotFoundException:SpringContextLoaderListenerexception"
我收到以下异常: java.lang.ClassNotFoundException: org.jboss.resteasy.plugins.server.servlet.ResteasyBootstr
java - 调试solr 4.6源码。获取 ClassNotFoundException : java. lang.ClassNotFoundException : solr. WhitespaceTokenizerFactory
我正在尝试使用eclipse和tomcat调试solr4.6源代码。我收到错误消息:HTTP 状态 500 - {msg=SolrCore 'collection1' 由于初始化失败而不可用:[sch
Java加载插件jar ClassNotFoundException
我是新来的，很抱歉我的英语不好；)。我尝试使用以下代码在 java 中加载插件 jar: package testprogramm; import java.io.File; import java
安卓:ClassNotFoundException
我重新安装了 ADT Bundle，因为我在更新 eclipse 后遇到了一些问题。现在，当我想测试我的应用程序时，出现以下异常: 06-05 10:33:35.770: E/AndroidRunt
Eclipse中Tomcat下的Java ClassNotFoundException
我浏览过现有的帖子，这些帖子处理在 Eclipse 中的 Tomcat 下运行 Java Web 应用程序的 ClassNotFoundException。我无法提供源代码和配置 Artifact
安卓工作室 : ClassNotFoundException
我忙于我的应用一个多星期，突然: 11-12 07:59:17.860 1653-1653/nl.test.myapp E/AndroidRuntime﹕ FATAL EXCEPTION: ma
安卓 ClassNotFoundException
我的应用程序有问题，昨天一切正常，但今天我更新了 sdk，现在当我尝试运行我的应用程序时，出现这样的错误 05-21 00:14:19.285: W/dalvikvm(7061): Unable t
spring - ClassNotFoundException CrudRepository
我正在阅读 JPA docs在 Spring ，我正在尝试重组我的代码。我现在所拥有的: BrewerRepository @Repository public class BrewerReposi
java - 扩展过滤器 ClassNotFoundException
我想像 BalusC's example 一样实现 fileUpload . 不幸的是，我已经在努力声明 servlet。 Extensions Filter javax.faces
java - 在某些计算机上加载小程序时出现 ClassNotFoundException
在某些机器上运行这个小程序不起作用，但在其他机器上它工作得很好。在所有情况下看起来都安装了 JRE 1.6.0_26。 var attributes = {codebase:'http://kas
hadoop - Hadoop:ClassNotFoundException
我将跟随这个非常简单的教程(http://www.tutorialspoint.com/hadoop/hadoop_mapreduce.htm)一起学习，直到我尝试运行Java文件为止，一切运行良好。
hadoop - ClassNotFoundException，同时运行Hadoop的示例作业
我看到了帖子，并按照流程进行了操作。但这没有用。 ClassNotFoundException, while running example job of Hadoop 请帮助我。创建的 mapre
hadoop - 在Hadoop上运行Mahout作业:ClassNotFoundException
我尝试在cloudera quickstart vm上为hadoop运行Mahout Kmeans示例。我在这里读link to clouudera block和这里stack overflow po
eclipse - HCatOutputFormat ClassNotFoundException
我有一个mapreduce程序，其中我使用Hcatalog从Hive表'A'中获取带有HcatInputFormat的详细信息，对其进行处理，然后使用HcatOutput格式将其写回到Hive表'B'
scala - Spark中的FSDataInputStream ClassNotFoundException
我是激发应用程序编程的新手，因此在这里为这个基本的编程而苦苦挣扎。我有 scala ide 并附加了来自最新 hadoop 和 spark 发行版的相关 jar 文件。我正在使用的只有一个基本的 s
java - ClassNotFoundException HadoopMapReduceCommitProtocol
我正在尝试在本地模式下运行Spark示例，但是正在获取以下堆栈跟踪: Exception in thread "main" java.lang.NoClassDefFoundError: org/ap
java - 类路径上的类文件出现 ClassNotFoundException
我有以下代码: // Test TODO remove try { System.out.println(System.getProperties().getPrope
clojure - 从其他命名空间导入记录时出现 ClassNotFoundException
我有以下文件: src/my_proj/myns.clj: (ns my-proj.myns) (defrecord MyRecord [a b c]) 测试/my_proj/myns_test.c
java - 动态加载后调用时出现 ClassNotFoundException
我试图让应用程序动态加载某些类，然后调用启动方法，但问题是，由于 ClassLoader 不同，一个类无法调用另一个类的方法，但是正如我已经用 google 搜索的那样，我用父类创建了两个类加载器。这

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - 为什么 Spark 应用程序以 “ClassNotFoundException: Failed to find data source: kafka” 作为带有 sbt 程序集的 uber-jar 失败？