java - Spark/Scala - 从 Json 创建 DataFrame 时出错 : java. lang.NoSuchMethodError : org. apache.spark.sql.DataFrameReader.json-6ren

java - Spark/Scala - 从 Json 创建 DataFrame 时出错 : java. lang.NoSuchMethodError : org. apache.spark.sql.DataFrameReader.json

转载作者：行者123 更新时间：2023-11-30 06:19:47

我是 Spark 和 Scala 新手。我正在尝试从 JSONArray 创建数据框。下面是我的代码:

 public class JSONParse{
    public JSONArray actionItems() {
        JSONParser parser = new JSONParser();
        JSONArray results = null;
        try {
            JSONObject obj = (JSONObject) parser.parse(new FileReader("/data/home/actionitems.json"));
            JSONObject obj2 = (JSONObject) obj.get("d");
            results = (JSONArray) obj2.get("results");
            System.out.println(results);

        } catch (Exception e) {
            e.printStackTrace();
        }
        return results;
    }
    }

object driver {
  val parse = new JsonParse
  val conf = new SparkConf().setAppName("test")
  val sc = new SparkContext(conf)
  sc.setLogLevel("ERROR")
  val hiveContext = new HiveContext(sc)
  val sqlContext = new SQLContext(sc)

  def main(args: Array[String]): Unit = {
    val actionItemsRDD = sc.parallelize(Seq(parse.actionItems.toString))
    val df: DataFrame = hiveContext.read.json(actionItemsRDD)
    df.show
    println("number of records: "+df.count)
    }
}

Java 类 JsonParse 从文件中读取 json，并将 JSONArray 返回到 scala 对象 driver。在 driver 中，我将 Json 字符串转换为 RDD，然后使用 hiveContext.read.json(actionItemsRDD)< 创建 Dataframe/。我使用 maven 构建，没有构建错误。

但是，当我运行 jar 时，出现以下错误:线程“main”中的异常 java.lang.NoSuchMethodError: org.apache.spark.sql.DataFrameReader.json(Lorg/apache/spark/rdd/RDD;)Lorg/apache/spark/sql/Dataset;

它在 hiveContext.read.json 行引发异常。我以前做过这个，没有任何问题。我还使用了与之前尝试相同的依赖项。下面是我的 pom.xml:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>json</groupId>
  <artifactId>test</artifactId>
  <version>1.0-SNAPSHOT</version>
  <name>${project.artifactId}</name>
  <build>
    <sourceDirectory>src</sourceDirectory>
    <plugins>
      <plugin>
        <groupId>net.alchim31.maven</groupId>
        <artifactId>scala-maven-plugin</artifactId>
        <version>3.2.2</version>
        <executions>
          <execution>
            <id>scala-compile-first</id>
            <phase>process-resources</phase>
            <goals>
              <goal>compile</goal>
            </goals>
          </execution>

          <execution>
            <id>scala-test-compile</id>
            <phase>process-test-resources</phase>
            <goals>
              <goal>testCompile</goal>
            </goals>
          </execution>
        </executions>
      </plugin>
      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <version>2.4.1</version>
        <executions>
          <execution>
            <phase>package</phase>
            <goals>
              <goal>shade</goal>
            </goals>
            <configuration>
              <relocations>
                <relocation>
                  <pattern>org.apache.http</pattern>
                  <shadedPattern>org.shaded.apache.http</shadedPattern>
                </relocation>
              </relocations>
              <filters>
                <filter>
                  <artifact>*:*</artifact>
                    <excludes>
                        <exclude>META-INF/*.SF</exclude>
                        <exclude>META-INF/*.DSA</exclude>
                        <exclude>META-INF/*.RSA</exclude>
                    </excludes>
                </filter>
              </filters>
              <shadedArtifactAttached>true</shadedArtifactAttached>
              <shadedClassifierName>shaded</shadedClassifierName>
            </configuration>
          </execution>
        </executions>
      </plugin>
    </plugins>
  </build>
  <dependencies>
        <dependency>
            <groupId>com.databricks</groupId>
            <artifactId>spark-csv_2.11</artifactId>
            <version>1.4.0</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive_2.10 -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-hive_2.10</artifactId>
            <version>1.6.0</version>                
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-api</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.10</artifactId>
            <version>1.6.0</version>             
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-api</artifactId>
                </exclusion>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>jcl-over-slf4j</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.scala-lang/scala-library -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.10.6</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.jodd/jodd -->
        <dependency>
            <groupId>org.jodd</groupId>
            <artifactId>jodd</artifactId>
            <version>3.4.0</version>
            <type>pom</type>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.json/json -->
        <dependency>
            <groupId>org.json</groupId>
            <artifactId>json</artifactId>
            <version>20170516</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.3</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpcore -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpcore</artifactId>
            <version>4.4.4</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/com.googlecode.json-simple/json-simple -->
        <dependency>
            <groupId>com.googlecode.json-simple</groupId>
            <artifactId>json-simple</artifactId>
            <version>1.1.1</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.threeten/threetenbp -->
        <dependency>
            <groupId>org.threeten</groupId>
            <artifactId>threetenbp</artifactId>
            <version>1.3.3</version>
        </dependency>
    </dependencies>
</project>

不确定为什么会出现此错误，并且我无法解决它。任何帮助，将不胜感激。谢谢!

最佳答案

第一点 - 不要自己解析数据。 Spark 内置了对 JSON 的支持:

val df = spark.read.json("file:///data/home/actionitems.json")
val newDataset = df.select("d.results")

如果 JSON 中有任何 JSON，您还可以使用内置函数，例如 from_json ;)

如果您的 JSON 不是逐行的 - 每行一个对象 - 使用 multiLine 选项并将其设置为 true，那么您的数据集将只有一列

第二点 - 集群上的 Spark 版本似乎错误，因此 Spark 无法看到正确的方法

第三点-最好至少更新到Spark 2.2，它有很多改进

第四点 - Scala 版本不匹配，所有组件应使用相同的 Scala。您声明一次 2.10，在其他依赖项中声明 2.11

关于java - Spark/Scala - 从 Json 创建 DataFrame 时出错 : java. lang.NoSuchMethodError : org. apache.spark.sql.DataFrameReader.json，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48406282/

文章推荐： java - Java中高效的数组扩展

文章推荐： Java 计算器抛出 - 二元运算符的错误操作数类型 '-' -

文章推荐： java - Jprofiler 无法让代理工作

Grails 启动错误 : groovy. lang.Closure.rehydrate(Ljava/lang/Object;Ljava/lang/Object;Ljava/lang/Object;)Lgroovy/lang/Closure;
在 Tomcat 6/Ubuntu 12.04 上启动 Grails 2.1.0 应用程序时出现以下错误。 Error 500 - Internal Server Error. groovy.lang
java.lang.RuntimeException : java. lang.ClassCastException : java. lang.Long 无法转换为 java.lang.String
在运行 Storm 拓扑时，我收到此错误。拓扑完美运行 5 分钟，没有任何错误，然后失败。我正在使用 Config.TOPOLOGY_TICK_TUPLE_FREQ_SECS as 300 sec i
java.lang.NoSuchMethodException : java. lang.String.substring(java.lang.Long，java.lang.Long)
我有一个 jsp 代码在其中一台机器上运行良好。但是当我复制到另一台机器时，我得到了这个 no such method found 异常。我是 Spring 的新手。有人可以解释我错过了什么吗？以下
java - java.util.Map 中的 put(java.lang.String,java.lang.Inte ger) 不能应用于 (java.lang.String,java.lang.String )
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
java.lang.NoSuchMethodError - Ljava/lang/String;)Ljava/lang/String;
我的代码在下面给出了一个错误； Exception in thread "main" java.lang.NoSuchMethodError: com/myApp/Client.cypherCBC(L
java - Restful Web 服务 - java.lang.NoSuchMethodError concat(Ljava/lang/Iterable;Ljava/lang/Iterable;)Ljava/lang/Iterable
我正在尝试一个 Restful web 服务示例，所以当我要访问 url 时，我遇到了异常 java.lang.NoSuchMethodError: jersey.repackaged.com.goo
java.lang.NoSuchMethodError : org. jboss.logging.Logger.getMessageLogger(Ljava/lang/Class;Ljava/lang/String;)Ljava/lang/Object;
我正在将一个 Spring web 项目转换为一个 Maven 项目，但我收到了这个错误: java.lang.NoSuchMethodError: org.jboss.logging.Logger.
java.lang.ClassCastException : java. lang.Short 无法转换为 java.lang.Integer
在我的项目中，我有一个像这样的枚举: public enum MyEnum { FIRST(1), SECOND(2); private int value; private MyEnum(int v
java.lang.ClassCastException : java. lang.String 无法转换为 java.lang.Long
我创建了这个简单的示例，用于读取 Linux 正常运行时间: public String getMachineUptime() throws IOException { String[] di
java.lang.ClassCastException : [Ljava. lang.Object;无法转换为 [Ljava.lang.Comparable;
我正在使用 Eclipse，并且正在使用 Java。我的目标是使用 bogoSort 方法对 vector 进行排序在一个 vector (vectorExample)中适应我的 vector 类型，
java.lang.ClassCastException : java. lang.String 无法转换为 [Ljava.lang.Object
我正在运行以下查询。它显示一条错误消息。如何解决这个错误？ ListrouteList=null; List companyList = session.createS
java.lang.ClassCastException : [Ljava. lang.Long;无法转换为 java.lang.Long
我有以下模型类: @Entity @Table(name="user_content") @org.hibernate.annotations.NamedQueries({ @org.
java.lang.ClassCastException : [Ljava. lang.String;无法转换为 java.lang.String
我有那个错误。这是我的代码: GmailSettingsService service = new GmailSettingsService(APPLICATION_NAME, DOMAIN_NAME
java.lang.ClassCastException : java. lang.StackOverflowError 无法转换为 java.lang.Exception
实际上我在执行我的java程序时遇到了下面提到的错误 Exception in thread "pool-1-thread-1" java.lang.ClassCastException: jav
java.lang.ClassCastException : java. lang.Float 无法转换为 java.lang.String
java.lang.ClassCastException: java.lang.Float cannot be cast to java.lang.String 我在以下代码中遇到此异常: Strin
java.lang.ClassCastException : [Ljava. lang.Object;不兼容 [Ljava.lang.String;
我正在尝试从 linkedhashset 中检索随机元素。下面是我的代码，但它每次都给我异常。 private static void generateRandomUserId(Set userIds
java.lang.ClassCastException : java. lang.Double 无法转换为 java.lang.String
我已经完成了 Android 中的代码: List spinnerArray = new ArrayList(); for (int i = 0; i item = (LinkedTreeMap)
java.lang.ClasscastException : java. lang.Long 无法转换为 java.lang.Double
这个问题已经有答案了: Explanation of ClassCastException in Java (12 个回答) 已关闭 6 年前。我已经编写了 java 到 Json 的代码，同时从页
java.lang.ClassCastException : java. lang.Long 无法转换为 clojure.lang.IFn
这个问题在这里已经有了答案: ClassCastException java.lang.Long cannot be cast to clojure.lang.IFn (4 个答案) 关闭 6 年前
java.lang.ClassCastException : java. lang.Integer 无法转换为 java.lang.Double
我在运行时遇到问题来编译这段代码，这给我一个错误，java.lang.Integer 无法转换为 Java.lang.Double。如果有人帮助我更正此代码，我将非常高兴 double x; pu

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - Spark/Scala - 从 Json 创建 DataFrame 时出错 : java. lang.NoSuchMethodError : org. apache.spark.sql.DataFrameReader.json