gpt4 book ai didi

apache-spark - 如何将流式数据集写入 Cassandra?

转载 作者:行者123 更新时间:2023-12-04 04:55:01 24 4
gpt4 key购买 nike

所以我有一个 Python Stream-sourced DataFrame df它包含我想放入带有 spark-cassandra-connector 的 Cassandra 表中的所有数据.我尝试通过两种方式做到这一点:

df.write \
.format("org.apache.spark.sql.cassandra") \
.mode('append') \
.options(table="myTable",keyspace="myKeySpace") \
.save()

query = df.writeStream \
.format("org.apache.spark.sql.cassandra") \
.outputMode('append') \
.options(table="myTable",keyspace="myKeySpace") \
.start()

query.awaitTermination()

但是,我不断收到此错误,分别为:
pyspark.sql.utils.AnalysisException: "'write' can not be called on streaming Dataset/DataFrame;


java.lang.UnsupportedOperationException: Data source org.apache.spark.sql.cassandra does not support streamed writing.

无论如何我可以将我的流式数据帧发送到我的 Cassandra 表中吗?

最佳答案

当前没有直播Sink用于 Spark Cassandra 连接器中的 Cassandra。您需要实现自己的 Sink或等待它变得可用。

如果您使用的是 Scala 或 Java,则可以使用 foreach运算符并使用 ForeachWriterUsing Foreach 中所述.

关于apache-spark - 如何将流式数据集写入 Cassandra?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45113538/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com