gpt4 book ai didi

spark-streaming - Spark Streaming 检查点到亚马逊 s3

转载 作者:行者123 更新时间:2023-12-04 02:07:09 25 4
gpt4 key购买 nike

我正在尝试将 rdd 检查点到非 hdfs 系统。来自 DSE document似乎无法使用 cassandra 文件系统。所以我打算使用 amazon s3 。但是我找不到任何使用 AWS 的好例子。

问题

  • 我如何使用 Amazon S3 作为检查点目录? 调用就足够了吗?
    ssc.checkpoint(amazons3url) ?
  • 除了用于检查点的 hadoop 文件系统之外,是否可以有任何其他可靠的数据存储?
  • 最佳答案

    来自 link 中的回答

    解决方案1:

    export AWS_ACCESS_KEY_ID=<your access>
    export AWS_SECRET_ACCESS_KEY=<your secret>
    ssc.checkpoint(checkpointDirectory)

    将检查点目录设置为 S3 URL - s3n://spark-streaming/checkpoint
    然后使用 spark submit 启动您的 spark 应用程序。
    这适用于 spark 1.4.2
    解决方案2:
      val hadoopConf: Configuration = new Configuration()
    hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
    hadoopConf.set("fs.s3n.awsAccessKeyId", "id-1")
    hadoopConf.set("fs.s3n.awsSecretAccessKey", "secret-key")

    StreamingContext.getOrCreate(checkPointDir, () => {
    createStreamingContext(checkPointDir, config)
    }, hadoopConf)

    关于spark-streaming - Spark Streaming 检查点到亚马逊 s3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33475931/

    25 4 0