gpt4 book ai didi

apache-spark - 请求之间 "cache"Spark 数据集的最佳方法是什么?

转载 作者:行者123 更新时间:2023-12-04 04:23:33 25 4
gpt4 key购买 nike

我有一个 Spark开始在给定年份的数据集中创建法国网络(城市、地方当局...)的程序。然后用于其他操作:本地记账、企业间搜索等。

数据集在业务规则方面很难创建:许多过滤器、多种检查,而且我事先不知道请求它的调用者将如何使用它。但大多数时候,他要求的是 2019 年的数据集,因为他只需要“今天在法国存在的所有城市。”。

我的以下程序成功返回了 2019 年的结果。下一位来电者还要求 2019 年的城市:Spark重新开始他之前所做的全部工作......

这里优化的原理是什么?

我应该在我的程序中存储我用于请求和构建的 spark session 的同一级别,类似于 Map<Integer, Dataset> 吗?关键是年份,而数据集是今年至少有一个调用者要求的数据集?

最佳答案

您必须将数据集保存到 hdfs 或正在使用的任何其他存储,并在需要时加载它,而不是再次重新计算整个数据集。这更多地是关于您将如何设计您的应用程序。作为数据准备的一部分,这些数据集可能应该针对最近几年的某些数据进行预先计算,并随时准备使用。这是假设下一次运行时它被触发为一个新的工作,例如:每天运行一次的工作

关于apache-spark - 请求之间 "cache"Spark 数据集的最佳方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58497501/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com