gpt4 book ai didi

python - 使用大型 (+15 gb) CSV 数据集和 Pandas/XGBoost

转载 作者:太空宇宙 更新时间:2023-11-03 15:53:06 26 4
gpt4 key购买 nike

我正在尝试寻找一种方法开始在 Pandas 中处理非常大的 CSV 文件,最终能够使用 XGBoost 进行一些机器学习。

我在使用 mySQL 还是一些 sqllite 框架来管理我的数据 block 之间左右为难;我的问题是稍后的机器学习方面,以及一次加载 block 以训练模型。

我的另一个想法是使用 Dask,它基于 Pandas 构建,但也具有 XGBoost 功能。

我不确定最好的起点是什么,希望征求意见!我倾向于 Dask 但我还没有使用它。

最佳答案

This blogpost通过一个在大型 CSV 数据集上使用 XGBoost 的示例。然而,它通过使用具有足够 RAM 的分布式集群来实现这一点,以便一次将整个数据集放入内存。虽然许多 dask.dataframe 操作可以在小空间内运行,但我认为 XGBoost 训练不太可能是其中之一。当所有数据始终可用时,XGBoost 似乎运行得最好。

关于python - 使用大型 (+15 gb) CSV 数据集和 Pandas/XGBoost,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45316906/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com