gpt4 book ai didi

matlab - 在庞大的数据集上学习决策树

转载 作者:行者123 更新时间:2023-12-02 02:36:52 27 4
gpt4 key购买 nike

我正在尝试使用 MATLAB 从巨大的(即无法存储在内存中的)数据集中构建二元分类决策树。本质上,我正在做的是:

  1. 收集所有数据
  2. 对数据尝试n个决策函数
  3. 选出 best decision function分隔数据中的类
  4. 将原始数据集拆分为 2
  5. 递归拆分

数据有k个属性和一个分类,所以存储为一个巨大行数的矩阵,k+1 专栏。决策函数是 bool 值,作用于将每一行分配给左子树或右子树的属性。

现在我正在考虑将文件中的数据存储在可以保存在内存中的 block 中,并为每一行分配一个 ID,以便通过顺序读取所有文件来决定拆分,并且 future 的拆分由身份证号码。

有谁知道如何以更好的方式做到这一点?

编辑:行数 m 约为 5e8,k 约为 500

最佳答案

在每次拆分时,您都将数据集分成越来越小的子集。从单个数据文件开始。将其作为流打开,一次只处理一行以确定要拆分的属性。获得第一个决策函数后,将原始数据文件拆分为 2 个较小的数据文件,每个文件包含拆分数据的一个分支。递归。数据文件应该变得越来越小,直到您可以将它们加载到内存中。这样,您就不必标记行并在庞大的数据文件中不断跳来跳去。

关于matlab - 在庞大的数据集上学习决策树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1144929/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com