gpt4 book ai didi

apache-spark - 让 Spark 在专有分布式数据库上工作的最佳方法是什么? (RDD 或 FileInputFormat)

转载 作者:行者123 更新时间:2023-12-05 00:24:17 26 4
gpt4 key购买 nike

我们有某种分布式数据存储。我们知道所有内部结构,可以直接访问磁盘上的数据。

我正在研究直接在其上部署 Apache Spark 的选项。

最好/推荐的方法是什么?

  • 写作 自定义RDD (源自RDD)
  • 或者,通过 扩展 FileInputFormat ?

  • (一个比另一个更容易吗?更好的性能?等等。)

    谢谢你的帮助

    最佳答案

    我会选择 CustomRDD。作为引用,您可以查看 datastax-cassandra-driver,他们有很好的示例为分布式数据库编写自定义 RDD

    https://github.com/datastax/spark-cassandra-connector/blob/master/spark-cassandra-connector/src/main/scala/com/datastax/spark/connector/rdd/CassandraRDD.scala

    然而,据我所知,他们并不关心从磁盘加载数据,他们使用来自 Cassandra 的分区信息来对 RDD 本身进行分区。但是,支持您需要的内容应该相对简单。

    关于apache-spark - 让 Spark 在专有分布式数据库上工作的最佳方法是什么? (RDD 或 FileInputFormat),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26615712/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com