gpt4 book ai didi

python - 大数据上的Impala中值计算

转载 作者:行者123 更新时间:2023-12-01 09:14:20 26 4
gpt4 key购买 nike

我可以访问任何给定月份的数亿行数据。 3 个特征:代表日期的字符串、代表类型的字符串和代表金额的值。

可以使用 python 和 impala(SQL),计算每月每种类型的数百万行的中位数的最佳方法是什么?

如果我使用简单的分组依据:日期部分的类型和子字符串来获取月份,例如 substring(date,1,4) 并使用 APPX_MEDIAN 函数作为中位数,我最终会耗尽内存Impala 查询。

如果我尝试将原始数据保存为 CSV(例如使用 DBeaver),它会很大 - GB 大小,太大而无法放入我有权访问的虚拟机内存中,如果我尝试,该虚拟机将保存 CSV将其推送到 python pandas 数据框中。

我不熟悉处理大数据的模式,因此任何提示都将非常感激。由于数据量巨大,我很难执行简单的计算。

最佳答案

您可以尝试通过指定 SET MEM_LIMIT=Xg 来增加 Impala 用于执行查询的内存量,其中 X 是每个 Impala 守护进程的 GB 内存 。请参阅https://impala.apache.org/docs/build/html/topics/impala_mem_limit.html了解更多详细信息。

关于python - 大数据上的Impala中值计算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51389527/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com