Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException : None. get-6ren

Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException : None. get

转载作者：行者123 更新时间：2023-12-04 07:56:13

26

4

我收到错误

ERROR org.apache.spark.executor.Executor: Exception in task 0.0 in stage 0.0 (TID 0)
java.util.NoSuchElementException: None.get

当我使用 Dataproc 集群运行我的作业时，当我在本地运行它时，它运行得很好。我使用以下玩具示例重新创建了该问题。

package com.deequ_unit_tests

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

object reduce_by_key_example {def main(args: Array[String]): Unit = {

  // Set the log level to only print errors
  Logger.getLogger("org").setLevel(Level.ERROR)

  val spark: SparkSession = SparkSession.builder()
    .master("local[1]")
    .appName("SparkByExamples.com")
    .getOrCreate()

  println("Step 1")
  val data = Seq(("Project", 1),
    ("Gutenberg’s", 1),
    ("Alice’s", 1),
    ("Adventures", 1),
    ("in", 1),
    ("Wonderland", 1),
    ("Project", 1),
    ("Gutenberg’s", 1),
    ("Adventures", 1),
    ("in", 1),
    ("Wonderland", 1),
    ("Project", 1),
    ("Gutenberg’s", 1))

  println("Step 2")
  val rdd = spark.sparkContext.parallelize(data)

  println("Step 3")
  val rdd2 = rdd.reduceByKey(_ + _)

  println("Step 4")
  rdd2.foreach(println)
  }
}

当我在 Dataproc 中运行此作业时，执行该行时出现此错误

rdd2.foreach(println)

作为附加信息，我不得不说，在我公司的 Dataproc 集群中应用了一些更改之前，我没有收到此错误。对于使用 PySpark 的同事，在上面示例的 Pyspark 中具有等效版本，更改

  sc = SparkContext('local')

到

  sc = SparkContext()

成功了，但我在 Spark Scala 中找不到等效的解决方案。你知道是什么导致了这个问题吗？欢迎任何帮助。

最佳答案

如下配置您的 pom.xml 或 build.sbt:

在脚本中添加提供的范围:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>stackOverFlowGcp</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.2.3</version>
            <scope>provided</scope>


        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.2.3</version>
            <scope>provided</scope>
        </dependency>


        <dependency>
            <groupId>com.typesafe</groupId>
            <artifactId>config</artifactId>
            <version>1.4.0</version>
            <scope>provided</scope>

        </dependency>


    </dependencies>


    <build>
        <plugins>
            <!-- Maven Plugin -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>8</source>
                    <target>8</target>
                </configuration>
            </plugin>
            <!-- assembly Maven Plugin -->
            <plugin>
                <artifactId>maven-assembly-plugin</artifactId>
                <configuration>
                    <archive>
                        <manifest>
                            <mainClass>mainPackage.mainObject</mainClass>
                        </manifest>
                    </archive>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>

        </plugins>

    </build>


</project>

创建你的包:清理 => 重建 => 编译 => 包

package mainPackage
import org.apache.spark.sql.SparkSession

object mainObject {


  def main(args: Array[String]): Unit = {


    val spark: SparkSession = SparkSession.builder()
      //.master("local[*]")
      .appName("SparkByExamples")
      .getOrCreate()

    spark.sparkContext.setLogLevel("ERROR")

    println("Step 1")
    val data = Seq(("Project", 1),
      ("Gutenberg’s", 1),
      ("Alice’s", 1),
      ("Adventures", 1),
      ("in", 1),
      ("Wonderland", 1),
      ("Project", 1),
      ("Gutenberg’s", 1),
      ("Adventures", 1),
      ("in", 1),
      ("Wonderland", 1),
      ("Project", 1),
      ("Gutenberg’s", 1))

    println("Step 2")
    val rdd = spark.sparkContext.parallelize(data)
    println("Step 3")
    val rdd2 = rdd.reduceByKey(_ + _)

    println("Step 4")
    rdd2.foreach(println)


  }
}

创建您的 dataproc 集群

在 dataproc 中运行 spark 作业

在 dataproc 中，您不会看到前面提到的结果，如果您想了解更多关于 Dataproc approch 的信息。但是，如果您愿意，您可以在 dataproc 中显示数据框。

正如您在 dataproc 中看到的那样，一切正常。
完成后不要忘记关闭集群或将其删除;)

关于Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException : None. get，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66689224/

26

4

0

文章推荐： python - 为什么我的异步函数在 Python3.9 中同步运行？

文章推荐： Gnuplot 在 loglog 图中平滑数据

python - 列表理解返回值加上 [None, None, None]，为什么？
这个问题在这里已经有了答案: Why does the print function return None? (1 个回答) 关闭 6 年前。我正在学习理解。我得到了 print(x) 部分(我
python - 如何理解Python中 `None or False`、 `False or None`、 `None and False`、 `False and None`的结果？
我以为我理解了 Python 中的这两个单例值，直到我看到有人在代码中使用 return l1 or l2，其中 l1 和 l2 都是链表对象，并且(s)他想如果不为 None 则返回 l1，否则返回
python - IPython Notebook 中的列表理解返回 [None, None, None...]
我希望在 IPython Notebook 中使用列表理解生成枚举字符串列表。它有效，但给了我一个我不理解的奇怪输出。 cols = [] [cols.append('Value'+str(hour)
python - 为什么 `None is None is None` 返回 True？
这个问题在这里已经有了答案: Why does the expression 0 >> import dis >>> def a(): ... return None is None is N
python - 为什么 list(print(x.upper(), end =' ' ) for x in 'spam' ) 得到一个 [None, None, None, None] 列表？
《Learning Python 5th》第608页有示例代码: >>> list(print(x.upper(), end=' ') for x in 'spam') S P A M [None,
python - 为什么这个函数也返回 "None None"？
我对此进行了搜索并遇到了列表返回函数，但我仍然不明白。我试图理解为什么 Print 函数到另一个函数返回以下内容: 生日快乐生日快乐无无我的代码: def happy(): prin
python - "None not in"与 "not None in"
除非我疯了 if None not in x 和 if not None in x 是等价的。有首选版本吗？我想 None not in 更像英语，因此更像 pythonic，但 not None i
python - 获取类型错误 : '(slice(None, None, None), 0)' is an invalid key
尝试绘制 k-NN 分类器的决策边界但无法这样做得到 TypeError: '(slice(None, None, None), 0)' is an invalid key h = .01 # st
python - 如何在 Keras 中将 (None, 10) 维张量 reshape 为 (None, None, 10)？
我正在尝试将可变大小的序列输入 LSTM。因此我使用生成器且批量大小为 1。我有一个嵌入的 (sequence_length,)-input-tensor，并输出 (batch_size,equen
python - 区分参数值 `None` 和默认参数值 `None`
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Is there any way to know if the value of an argument i
Python:字符串与 None 连接以返回 None？
我正在尝试根据环境变量的返回值进行条件赋值。 self._TBLFilePath = iTBLFilePath or os.environ.get("CDO_TBLPATH") + os.enviro
python - 强制加载 `None` 并在转储时跳过 `None`
我正在使用 marshmallow 2.0.0rc2 验证 HTTP 请求的输入数据，并在 HTTP 响应上将 SQLAlchemy 模型加载到 JSON。我偶然发现了两个问题: 首先，在通过 HTT
python - lxml 'None' 类型不是 None
我想将我设置为 None 的变量与 is 进行比较，但它失败了。当我使用 == 将此变量与 None 进行比较时，它起作用了。这就是我所说的变量: print type(xml.a) -> 因为
python - "is None"和 "== None"有什么区别
我最近遇到了这种语法，我不知道有什么区别。如果有人能告诉我其中的区别，我将不胜感激。最佳答案答案解释here . 引用: A class is free to implement compari
python - 获取类型错误 : '(slice(None, None, None), array([0, 1, 2, 3, 4]))' is an invalid key
尝试使用 BorutaPy 进行特征选择。但出现 TypeError: '(slice(None, None, None), array([0, 1, 2, 3, 4]))' 是无效键。 from s
tensorflow - 对于占位符的形状，[]、[None]、None 和 () 有什么区别？
我见过使用 [] 的代码片段, [None] , None或 ()作为 placeholder 的形状，那是 x = tf.placeholder(..., shape=[], ...) y = t
ansible - 为什么 `default( None )` 并不总是显示为 `None`
是否有逻辑推理可以解释为什么下面的 Ansible playbook 中的两个 debug 任务分别输出 "NONE" 和 "FALSE"并且不是两者都“NONE”？ - hosts: 'all'
python - 我应该使用 `==` 与 `(None, None)` 元组进行比较吗？
我有一个函数，它可以返回两个整数的元组或(None, None)的元组: (出于本问题的目的，我们假设此返回格式是执行此操作的唯一方法，并且无法更改) from typing import Tuple
python - 从嵌套字典中递归删除 None 值或 None 键
问题: 如何遍历字典并从中删除 None 键或值？这是我尝试过的: 代码: import copy def _ignore(data): copied_data = copy.deepcop
python - 简明地说 "none of the elements of an array are None"？
什么是简洁的 python 表达方式 if : # do a bunch of stuff once 最佳答案为什么不简单， None not in lst 关于python - 简明地说 "

首页

博学

6Ren·AI

商城

Dataproc 集群中的 Scala Spark 作业返回 java.util.NoSuchElementException : None. get