gpt4 book ai didi

r - 为什么 XGB 模型没有在验证数据集上提供输出,但更适合训练

转载 作者:行者123 更新时间:2023-11-30 10:00:41 25 4
gpt4 key购买 nike

目前我正在开发一个项目,其目标是找到更有可能购买您的项目的客户。它是一个分类模型(0 & 1)。我已经使用 RF 和 XGB 创建了模型并计算了增益分数(数据不平衡)。不是我超过 80% 的客户覆盖了训练数据的前 3 个十分位数,但当我在验证数据集上运行模型时,它回落到 56-两种模型均为 59%。

假设我有 20 个客户,为了获得更高的准确性,我对它们进行了聚类,现在模型在集群 1 客户上给出了完美的结果,但在集群 2 客户上表现不佳。

任何调整相同的建议。

最佳答案

首先,如果您的训练集和验证集之间存在高精度差异,您的模型可能会出现偏差。您可能需要使用更复杂的模型来进行此训练。

其次,由于数据集不平衡,您可能需要对训练集重新采样。您可以使用欠采样或过采样技术(SMOTE)。

第三,您可能需要使用正确的评估指标,例如精度、召回率、F1。

最后,在训练/验证/测试拆分中,您需要注意数据集的分布。所以你可以使用stratified关键字来处理这个问题。

关于r - 为什么 XGB 模型没有在验证数据集上提供输出,但更适合训练,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59163030/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com