gpt4 book ai didi

python - 使用 Python 快速迭代大数据?

转载 作者:搜寻专家 更新时间:2023-10-30 20:39:43 26 4
gpt4 key购买 nike

<分区>

我正在对中型数据(2GB,20Mio 记录)进行数据分析,而在当前机器上,它几乎无法放入内存。在这台 4 GB 的机器上达到 3GB 占用时,Windows 7 会显着变慢。我当前的大部分分析都需要遍历所有记录并考虑由某些 GroupID 确定的记录组的属性。

如何处理这个任务?我目前的方法是将其加载到 SQLite 中并逐行迭代。我在内存中构建组,但这也变得非常大。

我有以下想法,但也许您可以提出更好的方法:

  • 按 GroupID 对 SQLite 表进行排序,以便将组放在一起
  • 以某种方式按列存储数据,这样我就不必阅读所有列
  • 序列化数据以使用 Python 更快地解析它?

这些想法对我来说似乎很难结合起来:(我该怎么办?

(PS:硬件升级难,管理员权限也很麻烦)

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com