gpt4 book ai didi

machine-learning - 优化 RapidMiner 中的决策树参数

转载 作者:行者123 更新时间:2023-11-30 09:57:41 27 4
gpt4 key购买 nike

我正在处理一个相当大的数据集(770K 条记录,2K 属性,几乎所有这些属性都是二项式但为整数形式),

我想通过 10 倍交叉验证对数据应用决策树,但我遇到了一些问题:

1.为什么决策树(例如深度为10)需要这么多时间来训练?实际上,在训练树之前,我将数据(因为它不平衡)平衡到原始大小(~320K 记录)的 40%,但这仍然需要很多时间,是否有任何其他版本的决策树可以产生相同的性能和需要更少的时间?(将属性设置为二项式形式是否会加快速度?)

2.如何优化决策树的参数?我应该在整个 X 验证上优化它吗?

最佳答案

您是否有理由将二进制属性标记为整数?对于二项式属性,归纳确实更快,否则树归纳算法需要为每个节点的每个属性找到最佳分割。

诱导这样一棵树需要多长时间?您使用哪种算法?

关于参数优化:它需要在每个 X 验证循环内的单独集合上完成。请参阅此工作流程作为如何执行此操作的示例:http://www.myexperiment.org/workflows/3263.html

关于machine-learning - 优化 RapidMiner 中的决策树参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14086025/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com