gpt4 book ai didi

r - R 中随机森林时间序列的变量重要性

转载 作者:行者123 更新时间:2023-11-30 08:49:55 26 4
gpt4 key购买 nike

我使用 R 中的 randomForest 包和滚动窗口来预测金融时间序列(股票)的返回。我为此开发了一系列功能,我的目标是了解它们的相对预测能力。

我的挑战是我无法使用随机森林的可变重要性特征,因为我的大多数特征与其最近的过去具有高度的相关性。例如,移动平均线跨越几天的窗口,这意味着它包含我的数据集中多个观察值的信息。

这意味着随机森林生成的袋外样本将与随机森林用于训练模型的样本内特征相关。因此,我从中得到的变量重要性将是高度乐观和过度拟合的。

我看到的解决方案是以某种方式计算样本外测试集上的变量重要性,而不是使用 OOB 交叉验证。目标是确保与训练集绝对没有相关性。

我的问题:R 中是否存在一个包来计算并从测试集中提取变量重要性,而不是标准的 OOB 交叉验证集?如果没有,您能建议一种实现这一目标的方法吗?感谢您的帮助。

最佳答案

哇,太棒了,你想到了这些与样本内特征的相关性。

事实上,在测试集上运行变量重要性是一个更好的主意。我认为您可以轻松地自己编程。这是一些伪代码

check baseline performance metric
for variable in variables:
random shuffle variable
check performance metric
save performance metric to disk
barplot(performance metrics)

你的性能指标可以是任何东西:交叉熵、准确性、ROC-AUC 等等

关于r - R 中随机森林时间序列的变量重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37261673/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com