gpt4 book ai didi

artificial-intelligence - 使用多个训练数据源进行监督学习

转载 作者:行者123 更新时间:2023-11-30 08:28:40 25 4
gpt4 key购买 nike

我不确定这是否是机器学习问题的正确交流网站,但我之前确实看到过 ML 问题,所以我想试试运气(也发布在 http://math.stackexchange.com )。

我有来自不同来源的训练实例,因此构建一个模型效果不佳。在这种情况下有已知的方法可以使用吗?

示例解释得最好。假设我想根据基于不同人群构建的训练数据对癌症/非癌症进行分类。来自一个群体的训练实例可能具有与其他群体完全不同的正/负示例分布。现在,我可以为每个群体构建一个单独的模型,但问题是,对于测试,我不知道测试实例来自哪个群体。

*所有训练/测试实例都具有完全相同的功能集,无论它们来自哪个群体。

最佳答案

我怀疑这可能不会比将所有数据放入在整个数据集上训练的单个分类器中更好。从较高的层次来看,数据集的特征应该告诉您标签,而不是输入分布。不过你可以尝试一下。

为每个数据集训练一个单独的分类器来尝试预测标签。然后在组合分布上训练分类器,尝试预测数据点来自哪个数据集。然后,当您想要预测测试实例的标签时,请使用每个子分类器,并为其赋予与高级数据集分类器分配的权重成比例的权重。

这感觉很像混合高斯的估计步骤,您通过采用 K 个中心的估计值分配的概率加权平均值来分配生成数据点的概率。

关于artificial-intelligence - 使用多个训练数据源进行监督学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7289521/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com