gpt4 book ai didi

apache-spark - 我不明白为什么最后阶段没有任何保存或追加数据操作

转载 作者:行者123 更新时间:2023-12-04 09:03:37 25 4
gpt4 key购买 nike

      df.writeStream
.foreachBatch((batchDF: DataFrame, batchId: Long) =>
batchDF.write
.format("org.apache.spark.sql.cassandra")
.cassandraFormat(cassandraTable, cassandraKeyspace, cassandraCluster)
.mode("append")
.save())
.option("checkpointLocation", checkpointDir)
.start()
.awaitTermination()
在代码的最后,数据帧被写入 cassandra 表。
通过 UI 检查最后一个阶段后,没有执行保存/附加数据的部分。
enter image description here
我想知道为什么它不存在或者我错过了什么。
========================== 更改我的代码后================== ========
      .writeStream
// .foreachBatch((batchDF: DataFrame, batchId: Long) =>
// batchDF.write
// .format("org.apache.spark.sql.cassandra")
// .cassandraFormat(cassandraTable, cassandraKeyspace, cassandraCluster)
// .mode("append")
// .save())
.cassandraFormat(cassandraTable, cassandraKeyspace, cassandraCluster)
.option("checkpointLocation", checkpointDir)
.start()
.awaitTermination()
enter image description here
但是我可以在 SQL 选项卡中看到 WriteToDataSourceV2。
enter image description here

最佳答案

也许它不是直接回答您的问题,但对于 Spark 3.0 和 SCC 3.0.0(您应该使用 3.0.0-beta),您不应该使用 foreachBatch,而只是通过指定 Cassandra 格式按原样写入数据 - 从 SCC 2.5 开始。 0 Spark Structured Streaming 是 native 支持的 ​​- 请参阅公告:https://www.datastax.com/blog/2020/05/advanced-apache-cassandra-analytics-now-open-all

关于apache-spark - 我不明白为什么最后阶段没有任何保存或追加数据操作,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63509610/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com