scala - 关于 java.lang.NoClassDefFoundError : Could not initialize class org. xerial.snappy.Snappy-6ren

scala - 关于 java.lang.NoClassDefFoundError : Could not initialize class org. xerial.snappy.Snappy

转载作者：行者123 更新时间：2023-12-03 14:59:16

当我尝试编译、测试和运行 junit 测试时出现错误。

我想使用 DataFrames 加载本地 Avro 文件，但出现异常:

org.xerial.snappy.SnappyError: [FAILED_TO_LOAD_NATIVE_LIBRARY] null

我根本没有使用 Cassandra，涉及的 jars 版本是:

<properties>
    <!-- Generic properties -->
    <java.version>1.7</java.version>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
    <!--  Dependency versions -->
    <maven.compiler.source>1.7</maven.compiler.source>
    <maven.compiler.target>1.7</maven.compiler.target>
    <scala.version>2.10.4</scala.version>
    <junit.version>4.11</junit.version>
    <slf4j.version>1.7.12</slf4j.version>
    <spark.version>1.5.0-cdh5.5.2</spark.version>
    <databricks.version>1.5.0</databricks.version>
    <json4s-native.version>3.5.0</json4s-native.version>
    <spark-avro.version>2.0.1</spark-avro.version>
</properties>

这些是依赖项:

<dependencies>

    <dependency>
        <groupId>org.json4s</groupId>
        <artifactId>json4s-native_2.10</artifactId>
        <version>${json4s-native.version}</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>${junit.version}</version>
        <scope>test</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.10</artifactId>
        <version>${spark.version}</version>
    </dependency>
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-csv_2.10</artifactId>
        <version>${databricks.version}</version>
        <exclusions>
            <exclusion>
                <groupId>org.xerial.snappy</groupId>
                <artifactId>snappy-java</artifactId>
            </exclusion>
        </exclusions>
    </dependency>

    <dependency>
        <groupId>org.xerial.snappy</groupId>
        <artifactId>snappy-java</artifactId>
        <version>1.0.4.1</version>
        <scope>compile</scope>
    </dependency>
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-avro_2.10</artifactId>
        <version>${spark-avro.version}</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/log4j/log4j -->
    <dependency>
        <groupId>log4j</groupId>
        <artifactId>log4j</artifactId>
        <version>1.2.17</version>
    </dependency>
</dependencies>

我试图用
mvn clean install -Dorg.xerial.snappy.lib.name=libsnappyjava.jnlib -Dorg.xerial.snappy.tempdir=/tmp
在/tmp 中复制 jar 之前，没有运气。

$ ls -lt /tmp/
total 1944
...27 dic 13:01 snappy-java-1.0.4.jar

这是代码:

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SQLContext, SaveMode}
import org.apache.spark.{SparkConf, SparkContext}
import com.databricks.spark.avro._
import java.io._

//auxiliary function
def readRawData(pathToResources: String, sqlContext: SQLContext, rawFormat: String = "json"): DataFrame = {
val a: DataFrame = rawFormat match {
  case "avro" => sqlContext.read.avro(pathToResources)
  case "json" => sqlContext.read.json(pathToResources)
  case _ => throw new Exception("Format not supported, use AVRO or JSON instead.")
}
val b: DataFrame = a.filter("extraData.type = 'data'")
val c: DataFrame = a.select("extraData.topic", "extraData.timestamp",
  "extraData.sha1Hex", "extraData.filePath", "extraData.fileName",
  "extraData.lineNumber", "extraData.type",
  "message")

val indexForMessage: Int = c.schema.fieldIndex("message")
val result: RDD[Row] = c.rdd.filter(r =>
  !r.anyNull match {
    case true => true
    case false => false
  }
).flatMap(r => {
  val metadata: String = r.toSeq.slice(0, indexForMessage).mkString(",")
  val lines = r.getString(indexForMessage).split("\n")
  lines.map(l => Row.fromSeq(metadata.split(",").toSeq ++ Seq(l)))
})
sqlContext.createDataFrame(result, c.schema)
}//readRawData


def validate(rawFlumeData : String = "FlumeData.1482407196579",fileNamesToBeDigested : String = "fileNames-to-be-digested.txt", sqlContext: SQLContext,sc:SparkContext) : Boolean = {

val result : Boolean = true

  sqlContext.sparkContext.hadoopConfiguration.set("avro.mapred.ignore.inputs.without.extension", "false")

val rawDF : DataFrame = readRawData(rawFlumeData, sqlContext, rawFormat = "avro")

rawDF.registerTempTable("RAW")
//this line provokes the exception! cannot load snappy jar file!
val arrayRows : Array[org.apache.spark.sql.Row] = sqlContext.sql("SELECT distinct fileName as filenames FROM RAW GROUP BY fileName").collect()

val arrayFileNames : Array[String] = arrayRows.map(row=>row.getString(0))

val fileNamesDigested = "fileNames-AVRO-1482407196579.txt"

val pw = new PrintWriter(new File(fileNamesDigested))

for (filename <-arrayFileNames) pw.write(filename + "\n")

pw.close

val searchListToBeDigested : org.apache.spark.rdd.RDD[String] = sc.textFile(fileNamesToBeDigested)

//creo un map con valores como éstos: Map(EUR_BACK_SWVOL_SMILE_GBP_20160930.csv -> 0, UK_SC_equities_20160930.csv -> 14,...
//val mapFileNamesToBeDigested: Map[String, Long] = searchListToBeDigested.zipWithUniqueId().collect().toMap

val searchFilesAVRODigested = sc.textFile(fileNamesDigested)

val mapFileNamesAVRODigested: Map[String, Long] = searchFilesAVRODigested.zipWithUniqueId().collect().toMap

val pwResults = new PrintWriter(new File("validation-results.txt"))

//Hay que guardar el resultado en un fichero de texto, en algún lado...
val buffer = StringBuilder.newBuilder

//Me traigo los resultados al Driver.
val listFilesToBeDigested = searchListToBeDigested.map {line =>
  val resultTemp = mapFileNamesAVRODigested.getOrElse(line,"NOT INGESTED!")
  var resul = ""
  if (resultTemp == "NOT INGESTED!"){
    resul = "File " + line + " " + resultTemp + "\n"
  }
  else{
    resul = "File " + line + " " + " is INGESTED!" + "\n"
  }
  resul
}.collect()

//añado los datos al buffer
listFilesToBeDigested.foreach(buffer.append(_))
//guardo el contenido del buffer en el fichero de texto de salida.
pwResults.write(buffer.toString)
pwResults.close
//this boolean must return false in case of a exception or error...
result
}//

这是单元测试代码:

private[validation] class ValidateInputCSVFilesTest {

//AS YOU CAN SEE, I do not WANT to use snappy at all!
val conf = new SparkConf()
.setAppName("ValidateInputCSVFilesTest")
.setMaster("local[2]")
.set("spark.driver.allowMultipleContexts", "true")
.set("spark.driver.host", "127.0.0.1")
.set("spark.io.compression.codec", "lzf")

val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val properties : Properties = new Properties()
 properties.setProperty("frtb.input.csv.validation.avro","./src/test/resources/avro/FlumeData.1482407196579")
properties.setProperty("frtb.input.csv.validation.list.files","./src/test/resources/fileNames-to-be-digested.txt")
 import sqlContext.implicits._

sqlContext.sparkContext.hadoopConfiguration.set("avro.mapred.ignore.inputs.without.extension", "false")

@Test
def testValidateInputFiles() = {

//def validate(rawFlumeData : String = "FlumeData.1482407196579",fileNamesToBeDigested : String = "fileNames-to-be-digested.txt", sqlContext: SQLContext)
val rawFlumeData = properties.getProperty("frtb.input.csv.validation.avro")
val fileNamesToBeDigested = properties.getProperty("frtb.input.csv.validation.list.files")
println("rawFlumeData  is " + rawFlumeData )
println("fileNamesToBeDigested is " + fileNamesToBeDigested )
val result : Boolean = ValidateInputCSVFiles.validate(rawFlumeData ,fileNamesToBeDigested ,sqlContext,sc)

Assert.assertTrue("Must be true...",result)

}//end of test method

}//end of unit class

我可以使用以下命令在本地 spark-shell 中运行完全相同的代码:

$ bin/spark-shell --packages org.json4s:json4s-native_2.10:3.5.0 --packages com.databricks:spark-csv_2.10:1.5.0 --packages com.databricks:spark-avro_2.10:2.0.1

我还可以做些什么？

提前致谢。

最佳答案

当我更改 spark 依赖项的范围时，问题就解决了。

这是解决我的问题的 pom.xml 的一部分，现在我可以使用 spark-submit 命令运行作业...

<properties>
    <!-- Generic properties -->
    <java.version>1.7</java.version>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
    <!--  Dependency versions -->
    <maven.compiler.source>1.7</maven.compiler.source>
    <maven.compiler.target>1.7</maven.compiler.target>
    <scala.version>2.10.4</scala.version>
    <junit.version>4.11</junit.version>
    <slf4j.version>1.7.12</slf4j.version>
    <spark.version>1.5.0-cdh5.5.2</spark.version>
    <databricks.version>1.5.0</databricks.version>
    <json4s-native.version>3.5.0</json4s-native.version>
    <spark-avro.version>2.0.1</spark-avro.version>
</properties>

...

<dependencies>

    <dependency>
        <groupId>org.json4s</groupId>
        <artifactId>json4s-native_2.10</artifactId>
        <version>${json4s-native.version}</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>${junit.version}</version>
        <scope>test</scope>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.10</artifactId>
        <version>${spark.version}</version>
        <scope>provided</scope>
    </dependency>
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-csv_2.10</artifactId>
        <version>${databricks.version}</version>
        <scope>provided</scope>
        <exclusions>
            <exclusion>
                <groupId>org.xerial.snappy</groupId>
                <artifactId>snappy-java</artifactId>
            </exclusion>
        </exclusions>
    </dependency>

    <dependency>
        <groupId>org.xerial.snappy</groupId>
        <artifactId>snappy-java</artifactId>
        <version>1.0.4.1</version>
        <scope>provided</scope>
    </dependency>
    <dependency>
        <groupId>com.databricks</groupId>
        <artifactId>spark-avro_2.10</artifactId>
        <version>${spark-avro.version}</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/log4j/log4j -->
    <dependency>
        <groupId>log4j</groupId>
        <artifactId>log4j</artifactId>
        <version>1.2.17</version>
    </dependency>
</dependencies>

...

关于scala - 关于 java.lang.NoClassDefFoundError : Could not initialize class org. xerial.snappy.Snappy，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41344968/

文章推荐： python - f2py 和 gfortran : undefined reference to `main' 编译错误

schema.org - Schema.org、Goodrelations-vocabulary.org 和 Productontology.org 之间有什么关系？
Schema.org、Goodrelations-vocabulary.org 和 Productontology.org 之间有什么关系？ Schema.org 告知，“W3C schema.org
java - 为什么 org.ietf、org.omg、org.w3c 和 org.xml 是 POJO 的一部分？
大家好，我想知道包 org.ietf、org.omg、org.w3c 和 org 是如何实现的.xml 已进入 "official" Java classes ？例如，默认 JDK 不会包含 Apa
schema.org - DBpedia.org 本体与 Schema.org 本体
首先，我试图用来自 Schema.org 的属性定义数据库表，例如，例如，我有一个名为“JobPosting”的表，它或多或少具有与 http://schema.org/JobPosting 中定义的
java - 通过 org.w3c.dom.Element 对象作为 org.dom4j.Document 上的参数查找(将 org.w3c.dom.Element 转换为 org.dom4j.Element)
我有一个 org.w3c.dom.Document 被 org.dom4j.io.DOMReader 解析。我想通过 org.w3c.dom.Element 搜索 dom4j DOM 文档。比方说
java - 无法解析 - org.dom4j.DocumentException : org. dom4j.DocumentFactory 无法转换为 org.dom4j.DocumentFactory
我正在将我的应用程序部署到 Tomcat 6.0.20。应用程序使用 Hibernate 作为 Web 层的 ORM、Spring 和 JSF。我还从 main() 方法制作了简单的运行器来测试
deployment - 由 : org. dom4j.DocumentException 引起 : org. dom4j.DocumentFactory 无法转换为 org.dom4j.DocumentFactory
我有一个使用 hibernate > 4 的 gradle 项目。如果我在 Apache tomcat 中运行我的 war 文件，我不会收到任何错误。但是当我在 Wildfly 8.2 中部署它时，出
Android Studio : Could not find org. jacoco :org. jacoco.agent :org. gradle.testing.jacoco.plugins.JacocoPluginExtension_Decorated
我正在尝试将 JaCoCo 添加到我的 Android 以覆盖 Sonar Qube。但是在运行命令 ./gradlew jacocoTestReport 时，我收到以下错误。 Task :app:
org-mode - 在 org 模式下格式化日期
如何在 emacs 组织模式中格式化日期？例如，在下表中，我希望日期显示为“Aug 29”或“Wed, Aug 29”而不是“” #+ATTR_HTML: border="2" rules="all
org-mode - 在 org 文件中包含代码片段
我想使用 org 模式来写一本技术书籍。我正在寻找一种将外部文件中的现有代码插入到 babel 代码块中的方法，该代码块在导出为 pdf 时会提供很好的格式。例如 #+BEGIN_SRC pytho
schema.org - schema.org 中的产品类别？
用作引用:https://support.google.com/webmasters/answer/146750?hl=en 您会注意到在“产品”下有一个属性类别，此外页面下方还有一个示例: Too
schema.org - Schema.org 中的产品列表
我读了这个Google doc .它说我们不使用列表中的产品。那么对于产品列表(具有多页的类似产品的类别，如“鞋子”)，推荐使用哪种模式？我用这个: { "@context": "htt
schema.org - schema.org 数据集和维基数据之间是否存在映射？
我目前在做DBpedia数据集，想通过wikidata实现schema.org和DBpedia的映射。因此我想知道 schema.org 和 wikidata 之间是否存在任何映射。最佳答案我认为
org-mode - org-mode 表内的代码块
我爱org-tables ，我用它们来记录各种事情。我现在正在为 Nix 记录一些单行代码(在阅读了 Domen Kožar 的 excellent guide 后，在 this year's Eur
schema.org - schema.org 中的多个作者或贡献者
如果看一下 Movie在 schema.org 中输入，actor 和 actors 属性都是允许的(actor 取代 actors)。但是 author 和 contributor 属性没有等效项。
schema.org - Schema.org 中的多家餐厅
我们有一些餐厅有多个地点或分支机构。我想包含正确的 Schema.org 标记，但找不到任何允许列出多个餐厅的内容。每家餐厅都有自己的地址、电子邮件、电话和营业时间，甚至可能是“分店名称”。两个分
schema.org - Schema.org 的多个综合评级
我在一个页面中有多个综合评分片段。有没有办法让其中之一成为默认值？将显示在搜索引擎结果中的那个？谢谢大家! 更新:该网页本质上是品牌的页面。它包含品牌评论的总评分及其产品列表(每个产品的总评分)。
java - org.apache.maven.archiver.MavenArchiver.getManifest(org.apache.maven.project.MavenProject，org.apache.maven.archiver.MavenArchiveConfiguration)
我提到了一些相关的职位，但并没有解决我的问题。因为我正在使用maven-jar-plugin-2.4 jar。我正在使用JBoss Developer Studio 7.1.1 GA IDE，并且正
schema.org - 个人网站是否应该将根页面标记为 schema.org 'Person' ？
网站的根页面(即 http://example.com/ )的特殊之处在于它是默认的着陆页。它可能包含许多不同的对象类型。它可能被认为是一个网站，或者一个博客等... 但它是否也应该被标记为给定对象
org-mode - 如何隐藏一些文本不被 org-publish-* 函数发布？
我想将一些文本放入一个 org 文件中，当我将内容导出到其中一种目标类型(在本例中为 HTML)时，该文件不会发布。有什么方法可以实现这个目标吗？最佳答案您可能想要使用 :noexport: 标签
org-mode - 在 org-mode 的编号列表中的步骤之间移动
org-mode 是否有一个键绑定(bind)可以在编号/项目符号列表项之间移动，就像您可以对标题一样？喜欢的功能: org-forward-heading-same-level 大纲下一个可见标题

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - 关于 java.lang.NoClassDefFoundError : Could not initialize class org. xerial.snappy.Snappy