gpt4 book ai didi

python - 是否可以在更少的类(class)上重新训练训练有素的模型?

转载 作者:行者123 更新时间:2023-12-05 04:45:20 26 4
gpt4 key购买 nike

我从事图像检测工作,我正在检测图像并将其分类为 14 种不同的胸部疾病之一(多标签分类问题)。该模型在 NIH 数据集 上进行训练,我得到了 80% AUC。现在我想通过在第二个数据集上训练来改进模型。但主要问题是两个数据集的类不匹配。

第二个数据集包含 10 个类,这些类与我用来训练模型的第一个数据集重叠。

问题:

  1. 是否可以在更少的类别上重新训练模型。

  2. 在新数据集上重新训练我的模型会影响其他非相似类的 AUC 吗?

  3. 这改进模型的可能性有多大?

模型和代码基于fast.aiPyTorch

最佳答案

基于评论中的讨论:

  1. 是的,如果类别重叠(来自不同数据集的不同数据点),您可以使用两个数据集训练同一个分类器层。这意味着在其中一个数据集中,14 个类别中有 4 个根本没有经过训练。这意味着您基本上是通过为 14 类中的 10 类添加更多样本来使现有的 14 类数据集更加不平衡。
  2. 对 14 个类(class)中的 10 个类(class)进行训练会对未额外训练的 4 个类(class)产生遗忘效应。您可以通过使用建议的替代训练或将所有数据合并到一个大数据集中来抵消这种情况,但这并不能解决新的合并数据集可能比原始 14 类数据集更不平衡的事实。除非不在 10 类数据集中的 4 个类由于某种原因在 14 类数据集中出现过多,但我认为您不会那么幸运。
  3. 由于您的数据集和模型都将更侧重于 14 个类别中的 10 个类别,因此您的准确性可能会提高。然而,这意味着不重叠的 4 个类被简单地忽略,以支持其余 10 个类的更高准确度。理论上,这些数字可能看起来更好,但实际上您正在降低您的模型对 14 类分类任务的用处。

关于python - 是否可以在更少的类(class)上重新训练训练有素的模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69175045/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com