gpt4 book ai didi

apache-spark - Spark-Cassandra 与 Spark-Elasticsearch

转载 作者:行者123 更新时间:2023-12-02 22:12:08 24 4
gpt4 key购买 nike

我使用 Elasticsearch 已经有一段时间了,但使用 Cassandra 的经验很少。

现在,我有一个项目想要使用 Spark 来处理数据,但我需要决定是否应该使用 Cassandra 还是 Elasticsearch 作为数据存储来加载我的数据。

就连接器而言,Cassandra 和 Elasticsearch 现在都有一个很好的连接器来加载数据,因此这不会成为决定因素。

决定的获胜因素将是我在 Spark 中加载数据的速度。我的数据接近 20 TB。

我知道我可以使用 JMeter 运行一些测试并亲自查看结果,但我想询问熟悉这两个系统的任何人。

谢谢

最佳答案

简短的确切答案是“这取决于”,主要取决于簇大小 =)

我不会选择 Elastisearch 作为数据的主要来源,因为它擅长搜索。搜索是一项非常具体的任务,需要非常具体的方法,在本例中使用倒排索引来存储实际数据。每个字段基本上都进入单独的索引,因此索引非常紧凑。尽管可以将完整的对象存储到索引中,但这样的索引几乎不会获得任何压缩的好处。这需要更多的磁盘空间来存储索引和更多的CPU时钟,旋转磁盘来处理它们。

另一方面,Cassandra 非常擅长存储和检索数据。

没有更多或更少的具体要求,我会说 Cassandra 擅长作为主存储(并提供非常简单的搜索场景),而 ES 擅长搜索。

关于apache-spark - Spark-Cassandra 与 Spark-Elasticsearch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32279604/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com