gpt4 book ai didi

algorithm - 为随机森林训练程序构建数据集

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:48:38 25 4
gpt4 key购买 nike

我应该使用bagging(bootstrap aggregating 的缩写)技术来训练随机森林分类器。我读了here这种学习技术的描述,但我还没有弄清楚我最初是如何组织数据集的。

目前我首先加载所有正面示例,然后紧接着加载负面示例。而且,正例少于负例的一半,所以从数据集中均匀采样,得到负例的概率大于得到正例的概率。

我应该如何构建初始数据集?我是否应该打乱包含正面和负面示例的初始数据集?

最佳答案

装袋依赖于使用bootstrap samples训练不同的预测器,并汇总它们的结果。有关完整详细信息,请参阅上面的链接,但简而言之 - 您需要从数据中重复采样(即,如果您有 N 个元素,编号为 1 到 N,则选择 1 到 N 之间的 K 个随机整数,然后选择这 N 个元素作为一个训练集),通常创建与每个原始数据集大小相同的样本(即 K=N)。

还有一件事您可能应该记住 - 随机森林不仅仅是对原始数据的引导聚合 - 还有一个随机选择的特征子集用于每棵树。

关于algorithm - 为随机森林训练程序构建数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15122974/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com