gpt4 book ai didi

database - 在大型数据库表创建过程中需要管理聚合数据的策略

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:04:56 24 4
gpt4 key购买 nike

想象一下,每月将全世界所有高中生的成绩收集到一个表中,并且在每个学生的记录中,您需要包括该学生所在类(class)、城市和国家/地区的最终平均分。这可以在后处理中完成,但您的老板说必须在数据收集期间完成。

约束:行被写入一个平面文件,然后批量插入到新表中。

在不向 JVM 或 RDBMS 增加过多的内存/处理开销的情况下,什么是好的策略或设计模式可以保持几十万个平均值直到表格完成?任何想法都会有所帮助。

注意:因为该表是只读的,所以我们在完成时为其添加一个聚簇索引。

最佳答案

我会告诉我的老板停止事无巨细的管理。

但说真的,按类别、城市和国家对数据进行排序。然后通过保持类(class)、城市和国家的运行总计和计数来计算每个的运行平均值。当你遇到不同的类时,将类名和平均值写入一个文件。对城市和国家做同样的事情,只为每个使用不同的文件。然后就可以打开排序后的数据文件和平均文件,在数据库中一一插入行。

如果您想使用一个框架来处理所有的磁盘写入,我会考虑使用 Hadoop 进行处理。

关于database - 在大型数据库表创建过程中需要管理聚合数据的策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4033901/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com