gpt4 book ai didi

python - Dask 数据帧如何处理大于内存的数据集?

转载 作者:行者123 更新时间:2023-11-28 20:18:33 26 4
gpt4 key购买 nike

documentation of the Dask package for dataframes说:

Dask dataframes look and feel like pandas dataframes, but operate on datasets larger than memory using multiple threads.

但稍后在同一页中:

One dask DataFrame is comprised of several in-memory pandas DataFrames separated along the index.

Dask 是否依次从磁盘读取不同的 DataFrame 分区并执行计算以适应内存?它会在需要时将一些分区溢出到磁盘吗?一般而言,Dask 是如何管理数据的内存 <--> 磁盘 IO 以允许大于内存的数据分析?

我尝试在 10M MovieLens 数据集上执行一些基本计算(例如平均评分),我的笔记本电脑 (8GB RAM) 开始交换。

最佳答案

Dask.dataframe 延迟加载数据并尝试在对数据集的一次线性扫描中执行整个计算。令人惊讶的是,这通常是可行的。

智能转储到磁盘也是它可以管理的一个选项,尤其是在需要随机播放时,但通常有解决此问题的方法。

关于python - Dask 数据帧如何处理大于内存的数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36269461/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com