gpt4 book ai didi

hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者?

转载 作者:可可西里 更新时间:2023-11-01 15:29:56 25 4
gpt4 key购买 nike

我的数据库是 Cassandra (datastax enterprise => linux)。由于它不支持 group-by、aggregate 等报告,根据其基本原理,完全使用 Cassandra 不是一个好的决定。我用谷歌搜索了这个赤字,发现了一些结果 this , 和 this还有this one .

可是我真的糊涂了! Hive 单独使用附加表。 Solr 更适合全文搜索等。还有Spark...它对分析很有用,但是,我不明白它最终是否使用Hadoop。

我会有很多报告,至少需要索引和分组。但是我不想使用额外的表来增加开销。而且,我是 .Net(而非 Java)开发人员,我的应用程序也基于 .Net Framework

最佳答案

我不太确定你的问题是什么,你的困惑是可以理解的,因为 Cassandra 和 DSE 发生了很多事情。

  • 您正确地指出 Cassandra 不支持您希望用于报告的任何聚合或分组功能。
  • Solr(DSE 搜索)用于对存储在 Cassandra 中的数据进行临时和全文搜索。这一次仅适用于一张 table 。
  • Spark (DSE Analytics) 提供 Map-Reduce 等分析功能以及过滤和连接表的能力。这不是实时完成的,因为根据数据负载的不同,数据的处理和改组可能会很昂贵。
  • Spark 不使用 Hadoop。它执行许多相同的作业,但在许多情况下效率更高,因为它允许对数据进行内存中分布式处理。

由于您使用的是 DataStax Enterprise,优势在于您内置了 Solr(DSE 搜索)连接器以提供临时查询和 Spark(DSE 分析)以提供数据分析。

由于我不知道您的确切报告要求,所以很难给您具体的建议。如果您可以提供一些额外的详细信息,说明您将运行哪种类型的报告(计划的还是临时的等),我也许可以为您提供更多帮助。

关于hadoop - 管理报告,当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35892150/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com