scala - org.apache.spark.ml.feature.Tokenizer 中的 NullPointerException-6ren

scala - org.apache.spark.ml.feature.Tokenizer 中的 NullPointerException

转载作者：行者123 更新时间：2023-11-30 08:26:14

我想分别在 title 和 description 字段上单独使用 TF-IDF 功能，然后在 VectorAssembler 中组合这些功能，以便最终的分类器可以对这些特征进行操作。

如果我使用一个简单的串行流，它就可以正常工作

titleTokenizer -> titleHashingTF -> VectorAssembler

但我需要像这样:

titleTokenizer       -> titleHashingTF 
                                                -> VectorAssembler
descriptionTokenizer -> descriptionHashingTF

代码在这里:

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.{HashingTF, Tokenizer, StringIndexer, VectorAssembler}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row

import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator

import org.apache.log4j.{Level, Logger}


object SimplePipeline {
    def main(args: Array[String]) {

        // setup boilerplate
        val conf = new SparkConf()
            .setAppName("Pipeline example")
        val sc = new SparkContext(conf)
        val spark = SparkSession
            .builder()
            .appName("Session for SimplePipeline")
            .getOrCreate()

        val all_df = spark.read.json("file:///Users/me/data.json")
        val numLabels = all_df.count()

        // split into training and testing
        val Array(training, testing) = all_df.randomSplit(Array(0.75, 0.25))
        val nTraining = training.count();
        val nTesting = testing.count();

        println(s"Loaded $nTraining training labels...");
        println(s"Loaded $nTesting  testing labels...");

        // convert string labels to integers
        val indexer = new StringIndexer()
            .setInputCol("rating")
            .setOutputCol("label")

        // tokenize our string inputs
        val titleTokenizer = new Tokenizer()
            .setInputCol("title")
            .setOutputCol("title_words")
        val descriptionTokenizer = new Tokenizer()
            .setInputCol("description")
            .setOutputCol("description_words")

        // count term frequencies
        val titleHashingTF = new HashingTF()
            .setNumFeatures(1000)
            .setInputCol(titleTokenizer.getOutputCol)
            .setOutputCol("title_tfs")
        val descriptionHashingTF = new HashingTF()
            .setNumFeatures(1000)
            .setInputCol(descriptionTokenizer.getOutputCol)
            .setOutputCol("description_tfs")

        // combine features together
        val assembler = new VectorAssembler()
            .setInputCols(Array(titleHashingTF.getOutputCol, descriptionHashingTF.getOutputCol))
            .setOutputCol("features")

        // set params for our model
        val lr = new LogisticRegression()
            .setMaxIter(10)
            .setRegParam(0.01)

        // pipeline that combines all stages
        val stages = Array(indexer, titleTokenizer, titleHashingTF, descriptionTokenizer, descriptionHashingTF, assembler, lr);
        val pipeline = new Pipeline().setStages(stages);

        // Fit the pipeline to training documents.
        val model = pipeline.fit(training)

        // Make predictions.
        val predictions = model.transform(testing)

        // Select example rows to display.
        predictions.select("label", "rawPrediction", "prediction").show()

        sc.stop()
    }
}

我的数据文件只是一个以换行符分隔的 JSON 对象文件:

{"title" : "xxxxxx", "description" : "yyyyy" .... }
{"title" : "zzzzzz", "description" : "zxzxzx" .... }

我得到的错误很长，难以理解，但重要的部分(我认为)是 java.lang.NullPointerException:

ERROR Executor: Exception in task 0.0 in stage 9.0 (TID 12)
org.apache.spark.SparkException: Failed to execute user defined function($anonfun$createTransformFunc$1: (string) => array<string>)
    at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
    at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
    at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at org.apache.spark.storage.memory.MemoryStore.putIteratorAsValues(MemoryStore.scala:215)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:957)
    at org.apache.spark.storage.BlockManager$$anonfun$doPutIterator$1.apply(BlockManager.scala:948)
    at org.apache.spark.storage.BlockManager.doPut(BlockManager.scala:888)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:948)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:694)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:334)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:285)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
    at org.apache.spark.scheduler.Task.run(Task.scala:99)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:282)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
Caused by: java.lang.NullPointerException
    at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
    at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
    ... 23 more

我应该如何正确地设计我的管道来做到这一点？

(而且我对 Scala 完全陌生)

最佳答案

这里的问题是您没有验证数据并且某些值为NULL。重现这个非常容易:

val df = Seq((1, Some("abcd bcde cdef")), (2, None)).toDF("id", "description")

val tokenizer = new Tokenizer().setInputCol("description")
tokenizer.transform(df).foreach(_ => ())

org.apache.spark.SparkException: Failed to execute user defined function($anonfun$createTransformFunc$1: (string) => array<string>)
  at org.apache.spark.sql.catalyst.expressions.ScalaUDF.eval(ScalaUDF.scala:1072)
...
Caused by: java.lang.NullPointerException
  at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
...

例如，您可以删除:

tokenizer.transform(df.na.drop(Array("description")))

或将其替换为空字符串:

tokenizer.transform(df.na.fill(Map("description" -> "")))

无论哪个对您的应用程序更有意义。

关于scala - org.apache.spark.ml.feature.Tokenizer 中的 NullPointerException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41657152/

文章推荐： scala - 如何从交叉验证器获得经过训练的最佳模型

文章推荐： java - 如何使用 Java swt 创建黄色提示？

文章推荐： java - 使用 apache axiom 生成示例 xml 文件

文章推荐： python - 如何改变 Pytorch 数据集的大小？

nullpointerexception - XTend 空安全抛出 NullPointerException
我正在将我的模板代码移植到 XTend。在某些时候，我在测试用例中有这种类型的条件处理: @Test def xtendIfTest() { val obj = new FD if (
nullpointerexception - Kotlin NullPointerException 发生
我是新来的 kotlin , 当我开始 Null Safety 时，我对下面的情况感到困惑. There's some data inconsistency with regard to initia
nullpointerexception - 带有牛轧糖的java.lang.NullPointerException
我的应用程序一直在各种Android版本中保持良好状态。我有用户在Android 4.3、5.0、5.1和6.0上正常运行。但是，具有S7 Edge的用户刚刚更新了Android 7.0，将文本粘贴到
nullpointerexception - 无法访问除窗体之外的任何对象，NullPointerException 错误
我使用的是最新版本的 LWUIT (1.5)。我在资源编辑器中设计了我的表单，然后将代码生成到 netbeans。问题是如果我想访问除表单之外的任何对象，我会收到此错误: java.lang.Null
nullpointerexception - SonarQube Runner 在分析过程中抛出 NullPointerException
更新: 我在 Fedora 21 上运行它。 SonarQube - 5.0。 SonarQube Runner - 2.4 更新 2:Findbugs v3.1，Java 插件 v2.8 更新3:
java - jsp 中出现 NullPointerException，但控制台中没有出现 NullPointerException
RecupData 我的类仅在 web 中返回 NullPointerException。我连接到 pgsql db 8.3.7 - 该脚本在“控制台”syso 中运行良好 - 但引发了测试 Web
nullpointerexception - PShape 2.08 使用 createShape 抛出 NullPointerException
我在 mac 上使用 Processing 2.08。我正在尝试使用文档中给出的 createShape 函数创建 PShape。 PShape s; void setup(){ size(500
nullpointerexception - PShape 2.08 使用 createShape 抛出 NullPointerException
我在 mac 上使用 Processing 2.08。我正在尝试使用文档中给出的 createShape 函数创建 PShape。 PShape s; void setup(){ size(500
java - 异常 org.apache.jasper.JasperException : java. lang.NullPointerException 根本原因 java.lang.NullPointerException
每次运行此 jsp 时，都会收到以下错误异常: org.apache.jasper.JasperException: java.lang.NullPointerException root cause
nullpointerexception - java修改kotlin类内容为null
Kotlin 在编译时有一个出色的 null 检查，使用分离到“可空？”和“不可为空”的对象。它有一个 KAnnotator 来帮助确定来自 Java 的对象是否可以为空。但是，如果 not-null
nullpointerexception - 方向上的动态时间显示崩溃
我有一个布局将显示一个TextView，用于显示一个滴答时间。我遵循了此链接中的代码 How to Display current time that changes dynamically for
nullpointerexception - 在upsert上的ElasticsearchIllegalArgumentException
Elasticsearch 1.4.1版(“lucene_version”:“4.10.2”) 我有一个像这样的文件: $ curl 'http://localhost:9200/blog/artic
nullpointerexception - 从java中的selenium的另一个类调用test
这是我从另一个类调用函数的方法Selenium 设置已定义。 public void Transfer() throws Exception { System.out.println("\nTrans
创建文本文件时Java NullpointerException
我试图在主类中使用我在此类中创建的函数，但它崩溃并显示“警告:无法在根 0 处打开/创建首选项根节点 Software\JavaSoft\Prefsx80000002。 Windows RegCrea
JSP中调用方法时出现Java NullPointerException
这个问题已经有答案了: What is a NullPointerException, and how do I fix it? (12 个回答) 已关闭 3 年前。我有一个 Java 代码，它将
Java数组，NullPointerException？
我声明了两张牌: Card card1 = new Card('3', Card.Suit.clubs); Card card2 = new Card('T', Card.Suit.diamonds)
javafx任务错误: NullPointerException
我编写了一段代码来解码 Base64 图像并在 javafx 中表示该图像。在我的 url base64 代码中不断变化。这就是我在 javafx 代码中使用任务的原因。但我收到错误:java.lan
Java图实现: nullpointerexception
我正在尝试使用 arrayList 的 arrayList 在 Java 中实现图形。每当调用 addEdge 函数时，我都会收到 NullPointerException 。我似乎无法弄清楚为什么
函数中的android nullpointerexception
我是 Java/android 的新手，所以很多这些术语都是外国的，但我愿意学习。我不打算详细介绍该应用程序，因为我认为它不相关。我目前的问题是，我使用了博客中的教程和代码 fragment ，并使我
安卓摄像机 : NullPointerException
我正在开发一个 Android 应用程序来在 Android developer guide 的帮助下录制视频.我程序上的所有代码都与此页面相同。我在之外定义了权限标签。当应

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - org.apache.spark.ml.feature.Tokenizer 中的 NullPointerException