gpt4 book ai didi

machine-learning - 机器学习中训练数据的标记可能不是 100% 准确

转载 作者:行者123 更新时间:2023-11-30 09:47:35 28 4
gpt4 key购买 nike

我有一个数据集,其中包含患有糖尿病和未患有糖尿病的人。我想使用这些数据训练一个模型来计算糖尿病状况未知的人的风险概率。我知道在培训中没有被诊断出糖尿病的人大多数都没有糖尿病,但很可能其中一些人可能患有未确诊的糖尿病。

这似乎呈现出第 22 条军规的情况。我想识别有风险或可能患有未诊断糖尿病的人,但是我知道我的训练数据集中的一些人被错误地标记为未患有糖尿病,因为他们尚未被诊断出来。有人遇到过这样的问题吗?如果仅占数据的一小部分,是否仍可以基于可能存在一些错误标记的数据来继续进行?

最佳答案

可能有多种方法可以解决您的问题。

首先 - 这可能根本不是问题。如果错误标记的数据只占训练集的一小部分,那可能并不重要。实际上,在某些情况下,添加错误标记的数据或只是随机噪声可以提高分类器的鲁棒性和泛化能力。

第二 - 您可能想要使用训练集来训练分类器,然后检查分类器给出错误分类的数据点。分类器有可能实际上是正确的,并引导您找到错误标记的数据。如果可能的话,可以随后手动检查该数据。

第三 - 您可以使用共识过滤器等方法预先过滤数据。本文可能是开始研究此主题的好方法:Identifying Mislabeled Training Data - C.E. Brody and M.A. Friedl .

关于machine-learning - 机器学习中训练数据的标记可能不是 100% 准确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50455527/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com