gpt4 book ai didi

machine-learning - 有偏差的初始数据集主动学习

转载 作者:行者123 更新时间:2023-11-30 09:01:10 26 4
gpt4 key购买 nike

选择有偏差的初始(种子)数据集是否会影响使用主动学习构建的机器的训练和准确性?

最佳答案

有可能。假设种子数据样本存在严重偏差,并且模型没有看到特定集群的任何示例。然后,在预测时,模型可能会将它们预测为属于其他某个类别,并且高度确定地执行此操作(即,它已经产生了严重的偏差)。因此,它不会觉得需要查询此类数据实例的标签,也不会学习它们。但是当我们稍后用真实标签测试模型的结果时,它会显示出较低的准确性,因为这些实际上是错误的预测。

话虽如此,我们也可能不希望种子数据集中的训练数据分布“完全均匀”,因为如果我们有大量异常值或人为错误导致的不正确标签,或者严重倾斜但可能性较小的数据集群,则可能会出现这种情况。这是不受欢迎的,它会妨碍模型。

一种解决方案可以是“主动清理”此类实例,或者,我们可以允许种子数据具有一定程度的故意偏差(可以是针对高密度集群或有影响力的标签或系综分歧或模型的不确定性)。然后,我们确保在基于模型结果的进一步决策过程中考虑到模型中引入的偏差。

关于machine-learning - 有偏差的初始数据集主动学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35394018/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com