apache-spark - 写语句失败-6ren

apache-spark - 写语句失败

转载作者：行者123 更新时间：2023-12-04 04:19:12

我将 spark 与 cassandra 一起使用，我想将数据写入我的 cassandra 表:

CREATE TABLE IF NOT EXISTS MyTable(
 user TEXT,
 date TIMESTAMP,
 event TEXT,
 PRIMARY KEY((user ),date , event)
);

但是我得到了这个错误:

java.io.IOException: Failed to write statements to KeySpace.MyTable.
    at    com.datastax.spark.connector.writer.TableWriter$$anonfun$write$1.apply(TableWriter.scala:145)
    at com.datastax.spark.connector.writer.TableWriter$$anonfun$write$1.apply(TableWriter.scala:120)
    at com.datastax.spark.connector.cql.CassandraConnector$$anonfun$withSessionDo$1.apply(CassandraConnector.scala:100)
    at com.datastax.spark.connector.cql.CassandraConnector$$anonfun$withSessionDo$1.apply(CassandraConnector.scala:99)
    at com.datastax.spark.connector.cql.CassandraConnector.closeResourceAfterUse(CassandraConnector.scala:151)
    at com.datastax.spark.connector.cql.CassandraConnector.withSessionDo(CassandraConnector.scala:99)
    at com.datastax.spark.connector.writer.TableWriter.write(TableWriter.scala:120)
    at com.datastax.spark.connector.RDDFunctions$$anonfun$saveToCassandra$1.apply(RDDFunctions.scala:36)
    at com.datastax.spark.connector.RDDFunctions$$anonfun$saveToCassandra$1.apply(RDDFunctions.scala:36)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
    at org.apache.spark.scheduler.Task.run(Task.scala:56)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:200)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:745)
    Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1214)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1203)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1202)
    at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
    at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1202)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:696)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:696)
    at scala.Option.foreach(Option.scala:236)
    at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:696)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessActor$$anonfun$receive$2.applyOrElse(DAGScheduler.scala:1420)
    at akka.actor.Actor$class.aroundReceive(Actor.scala:465)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessActor.aroundReceive(DAGScheduler.scala:1375)
    at akka.actor.ActorCell.receiveMessage(ActorCell.scala:516)
    at akka.actor.ActorCell.invoke(ActorCell.scala:487)
    at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:238)
    at akka.dispatch.Mailbox.run(Mailbox.scala:220)
    at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:393)
    at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
    at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
    at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
    at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
15/04/28 17:57:47 WARN TaskSetManager: Lost task 13.2 in stage 1.0 (TID 43, dev2-cim.aid.fr): TaskKilled (killed intentionally)

以及我的 Cassandra 日志文件中的警告:

WARN  [SharedPool-Worker-2] 2015-04-28 16:45:21,219 BatchStatement.java:243 - Batch of prepared statements for [*********] is of size 8158, exceeding specified threshold of 5120 by 3038

在互联网上进行一些搜索后，我找到了这个链接，他解释了他如何解决同样的问题: http://progexc.blogspot.fr/2015/03/write-batch-size-error-spark-cassandra.html

所以，现在我修改了我的 spark 算法以添加:

conf.set("spark.cassandra.output.batch.grouping.key", "None")
conf.set("spark.cassandra.output.batch.size.rows", "10")
conf.set("spark.cassandra.output.batch.size.bytes", "2048")

这个值删除了我在 cassandra 日志中收到的警告消息，但我仍然有同样的错误:Failed to write statements。

在我的 spark 日志中，我发现了这个错误:

Failed to execute: 
    com.datastax.spark.connector.writer.RichBatchStatement@67827d57
    com.datastax.driver.core.exceptions.InvalidQueryException: Key may not be    empty
    at com.datastax.driver.core.Responses$Error.asException(Responses.java:103)
    at com.datastax.driver.core.DefaultResultSetFuture.onSet(DefaultResultSetFuture.java:140)
    at com.datastax.driver.core.RequestHandler.setFinalResult(RequestHandler.java:293)
    at com.datastax.driver.core.RequestHandler.onSet(RequestHandler.java:455)
    at com.datastax.driver.core.Connection$Dispatcher.messageReceived(Connection.java:734)
    at org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleChannelUpstreamHandler.java:70)
    at org.jboss.netty.handler.timeout.IdleStateAwareChannelUpstreamHandler.handleUpstream(IdleStateAwareChannelUpstreamHandler.java:36)
    at org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelPipeline.java:564)
    at org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext.sendUpstream(DefaultChannelPipeline.java:791)
    at org.jboss.netty.handler.timeout.IdleStateHandler.messageReceived(IdleStateHandler.java:294)
    at org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleChannelUpstreamHandler.java:70)
    at org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelPipeline.java:564)
    at org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext.sendUpstream(DefaultChannelPipeline.java:791)
    at org.jboss.netty.channel.Channels.fireMessageReceived(Channels.java:296)
    at org.jboss.netty.handler.codec.oneone.OneToOneDecoder.handleUpstream(OneToOneDecoder.java:70)
    at org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelPipeline.java:564)
    at org.jboss.netty.channel.DefaultChannelPipeline$DefaultChannelHandlerContext.sendUpstream(DefaultChannelPipeline.java:791)
    at org.jboss.netty.channel.Channels.fireMessageReceived(Channels.java:296)
    at org.jboss.netty.handler.codec.frame.FrameDecoder.unfoldAndFireMessageReceived(FrameDecoder.java:462)
    at org.jboss.netty.handler.codec.frame.FrameDecoder.callDecode(FrameDecoder.java:443)
    at org.jboss.netty.handler.codec.frame.FrameDecoder.messageReceived(FrameDecoder.java:303)
    at org.jboss.netty.channel.SimpleChannelUpstreamHandler.handleUpstream(SimpleChannelUpstreamHandler.java:70)
    at  org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelPipeline.java:564)
    at org.jboss.netty.channel.DefaultChannelPipeline.sendUpstream(DefaultChannelPipeline.java:559)
    at org.jboss.netty.channel.Channels.fireMessageReceived(Channels.java:268)
    at org.jboss.netty.channel.Channels.fireMessageReceived(Channels.java:255)
    at org.jboss.netty.channel.socket.nio.NioWorker.read(NioWorker.java:88)

最佳答案

我遇到了同样的问题，并在上面的评论中找到了解决方案(Amine CHERIFI 和 maasg)。

与主键对应的列并不总是用正确的值填充(在我的例子中是一个空字符串“”)。

这触发了错误

ERROR QueryExecutor: Failed to execute: \
com.datastax.spark.connector.writer.RichBatchStatement@26ad2668 \
com.datastax.driver.core.exceptions.InvalidQueryException: Key may not be empty

解决方案是提供一个默认的非空字符串。

关于apache-spark - 写语句失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29924525/

文章推荐： wcf - WCF 4 服务的平面 WSDL

文章推荐： cryptography - base 64 是密码学的一部分吗？

文章推荐： exception-handling - 在 Vimscript 中 try catch

c++ - 是否不可能在 QdataStream 为 float 写 4 个字节，为 double 写 8 个字节？
我需要(我必须)将大量 float 写入 qdatastream 并且我只使用 4 个字节是必要的。setFloatingPointPrecision 或为 float 和 double 写入 4 或
Python和C文件同时读/写
我有一些 C 代码，我用 Python 对其进行了扩展。扩展的 C 代码有一个将一些结构附加到二进制文件的函数: void writefunction(const struct struct1* so
写/读文件冲突
我正在用 C 语言开发一个小软件，用于在布告栏中读取和写入消息。每条消息都是一个以渐进数字命名的 .txt。软件是多线程的，有很多用户可以并发操作。用户可以进行的操作有: 阅读整个公告板(所有 .
java内存映射文件多线程读/写
我有 2 个线程同时访问同一个大文件 (.txt)。第一个线程正在从文件中读取。第二个线程正在写入文件。两个线程都访问同一个 block ，例如(开始:0， block 大小:10)，但具有不同的
linux剪贴板在C中读/写
我做了很多谷歌搜索，但我仍然不确定如何继续。 Linux 下最常见的剪贴板读写方式是什么？我想要同时支持 Gnome 和 KDE 桌面。更新:我是否认为没有简单的解决方案，必须将多个来源(gnome
写 Java 代码的14个好习惯
1. 定义配置文件信息有时候我们为了统一管理会把一些变量放到 yml 配置文件中例如图片用 @ConfigurationProperties 代替 @Value 使用方法定义对应字段的实体
io - FORTRAN 写()
在开始之前，我必须先声明我是 FORTRAN 的新手。我正在维护 1978 年的一段遗留代码。它的目的是从文件中读取一些数据值，处理这些值，然后将处理过的值输出到另一个文本文件。给定以下 FORTR
iPhone读/写.plist文件
我正在制作一个应用程序，我需要存储用户提供的一些信息。我尝试使用 .plist 文件来存储信息，我发现: NSString *filePath = @"/Users/Denis/Documents/X
Delphi 属性读/写
在delphi类中声明属性时是否可能有不同类型的结果？示例: 属性月份:字符串读取monthGet(字符串)写入monthSet(整数); 在示例中，我希望在属性(property)月份中，当我:读
delphi - delphi中的文件快速读/写
我正在以二进制形式将文件加载到数组中，这似乎需要一段时间有没有更好更快更有效的方法来做到这一点。我正在使用类似的方法写回文件。 procedure openfile(fname:string); va
c# - 如何使用线程在控制台上同时进行读/写
我想实现一个运行模拟的C#控制台应用程序。另外，我想给用户机会在控制台上按“+”或“-”来加速/减速模拟的速度。有没有办法在编写控制台时读取控制台？我相信我可以为此使用多线程，但是我却不怎么做(我对
rust - 写!引用时宏不会在单独的方法中编译
这是我的代码: use std::fs::File; use std::io::Write; fn main() { let f = File::create("").unwrap();
java - 在哪里以及如何存储文本文件以供读/写
我有一个应用程序可以访问 csv 文本文件中的单词。由于它们通常不会更改，因此我将它们放置在 .jar 文件中，并使用 .getResourceAsStream 调用读取它们。我真的很喜欢这种方法，因
security - 为什么Kubernetes允许在kubelet目录中进行全局读/写？
我使用kubeadm，docker 17.12.1-ce和法兰绒网络安装了Kubernetes 1.13.1集群但是，我发现Kubernetes主服务器上有许多空文件，权限为666，该文件允许任何用
Java - 文件读/写
我的工作区中有一些 java 文件。现在我想编写一个java程序，它可以读取来自不同源的文本文件，一次一个，一行一行，并将这些行插入到工作区中各自的java文件中。文本文件会告诉我将哪个文件插入到哪
filesystems - 文件系统如何处理并发读/写？
用户A要求系统读取文件foo，同时用户B想要将他或她的数据保存到同一个文件中。在文件系统级别如何处理这种情况？最佳答案大多数文件系统(但不是全部)使用锁定来保护对同一文件的并发访问。锁可以是独占的
android - 如何防止黑客在firebase数据库上读/写
我对保护移动应用程序的 firebase 数据库有一些疑问。例如，在反编译Android应用程序后，黑客可以获取firebase api key 然后访问firebase数据库，这是正确的吗？假设
java - 使用java创建不可删除的文件并对其进行读/写
我想让文件从外部不可删除，并希望使用java从程序对该文件进行读/写操作。 S0，我使用以下代码使用java创建了不可删除的文件: Process pcs = Runtime.getRunti
java NIO独立读/写
当 Selector.select() 以阻塞模式等待读/写操作时，是否可以将写消息推送到客户端？如何将选择器从阻塞模式移至写入模式？触发器可以是一个后台线程，用于放置需要写入给定 channel 的
c - 多个子进程在同一管道上读/写
我目前正在学习在 Linux 环境中使用 C 进行套接字编程。作为一个项目，我正在尝试编写一个基本的聊天服务器和客户端。目的是让服务器为每个连接的客户端派生一个进程。我遇到的问题是读取一个 chi

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 写语句失败