gpt4 book ai didi

apache-spark - Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数不同

转载 作者:行者123 更新时间:2023-12-01 03:37:44 25 4
gpt4 key购买 nike

我有一个由两台机器组成的 Spark 集群,当我运行 Spark 流应用程序时,出现以下错误:

Exception in thread "main" org.apache.spark.SparkException: Checkpoint RDD ReliableCheckpointRDD[11] at print at StatefulNetworkWordCount.scala:78(1) has different number of partitions from original RDD MapPartitionsRDD[10] at updateStateByKey at StatefulNetworkWordCount.scala:76(2)
at org.apache.spark.rdd.ReliableRDDCheckpointData.doCheckpoint(ReliableRDDCheckpointData.scala:73)
at org.apache.spark.rdd.RDDCheckpointData.checkpoint(RDDCheckpointData.scala:74)

如何在不是 HDFS/Cassandra/任何其他数据存储的文件系统上提供检查点目录?

我想到了两种可能的解决方案,但我不知道如何编码它们:
  • 有一个远程目录,对两个工作人员来说都是本地的
  • 为两个工作人员指定一个远程目录

  • 有什么建议 ?

    最佳答案

    好的,所以我可以继续第一个选项。

    我在所有工作人员上安装了一个远程目录作为检查点,它运行良好。

    How to mount the remote checkpoint directory on the workers:

    sudo apt-get install sshfs
    Load it to kernel

    sudo modprobe fuse

    sudo adduser username fuse

    mkdir ~/checkpoint

    sshfs ubuntu@xx.xx.x.xx:/home/ubuntu/checkpoint ~/checkpoint

    关于apache-spark - Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数不同,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33238882/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com