gpt4 book ai didi

elasticsearch - Spark查询花费的时间太长

转载 作者:行者123 更新时间:2023-12-03 00:36:15 24 4
gpt4 key购买 nike

我正在评估Spark / Cassandra和Elasticsearch来决定要去哪一个。

现在,我正在使用spark和Cassandra生成不同的报告,但是我注意到有200万条记录(大约400列),分别生成5个报告大约需要9.7、9.8、9.9、10和10分钟。
更改调度模式"spark.scheduler.mode", "FAIR"似乎并没有太大的区别。

我正在考虑将所有数据加载到内存中并进行缓存,以便如果数据是预加载的内存,则后续查询可以更快地运行。

但是,在Elasticsearch中运行相同的报告仅需2分钟。

关于如何改善 Spark 响应时间的任何想法?

最佳答案

首先,我不会将ElasticSearch与Spark进行真正的比较,因为这两个系统确实针对不同的用例。 Elastic Search专注于搜索和快速检索,Spark是通用分析框架,专注于非常大的数据集。

但是关于如何使您的Spark报告运行得更快。使用C *进行的关键操作是确保spark.cassandra.input.split.size足够小,以便您有足够的Spark任务来充分利用群集中的并行性。完成此操作后,您可以考虑将读取的表缓存在内存中以加快访问速度。

关于elasticsearch - Spark查询花费的时间太长,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30982167/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com