gpt4 book ai didi

python - 处理大数据进行随机森林分类

转载 作者:太空宇宙 更新时间:2023-11-03 15:00:14 24 4
gpt4 key购买 nike

我目前正在写我的论文,其中涉及处理相当大的数据集:约 400 万个观察结果和约 260 个特征。它是国际象棋游戏的数据集,其中大部分特征是虚拟玩家(每种颜色 130k)。

至于硬件和软件,我在这台电脑上有大约 12GB 的内存。我在 Python 3.5 中完成所有工作,主要使用 pandas 和 scikit-learn 包。

我的问题是显然我无法将这么多数据加载到我的 RAM 中。我想做的是生成虚拟变量,然后将数据库切成大约一千个 block ,应用随机森林并再次聚合结果。

但是,要做到这一点,我需要能够首先创建虚拟变量,由于内存错误我无法创建虚拟变量,即使我使用稀疏矩阵也是如此。理论上,我可以先分割数据库,然后创建虚拟变量。但是,这样做的结果是我将对不同的切片具有不同的特征,所以我不确定如何汇总这些结果。

我的问题:
1. 你们将如何解决这个问题?尽管在不同的“数据 block ”中具有不同的特征,但是否有一种方法可以“合并”我的估计结果?
2. 也许可以通过租用服务器来完全避免这个问题。是否有此类服务的试用版?我不确定完成此任务需要多少 CPU/RAM。

感谢您的帮助,我们将不胜感激 :)

最佳答案

我建议您试试 CloudxLab。

虽然它不是免费的,但价格实惠(每月 25 美元)。它提供了完整的环境来试验各种工具,如 HDFS、Map-Reduce、Hive、Pig、Kafka、Spark、Scala、Sqoop、Oozie、Mahout、MLLib、Zookeeper、R、Scala 等。许多流行的培训师都在使用 CloudxLab .

关于python - 处理大数据进行随机森林分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38610955/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com