gpt4 book ai didi

classification - 如何调整分类任务中标签的分级偏差?

转载 作者:行者123 更新时间:2023-12-04 13:37:56 25 4
gpt4 key购买 nike

我目前正在处理 convolutional neural network用于病理变化检测 x-ray images .这是一个简单的binary classification任务。在项目开始时,我们聚集了大约 6000 x-rays并请了 3 个不同的医生(领域专家)到 label他们。他们每个人都有大约 2000 张随机选择的图像(这 3 组是可分离的 - 一张图像仅由一名医生标记)。

labelling完成了我想检查每个医生有多少病例被标记为 havingnon-having变化,这就是我所得到的:

# A tibble: 3 x 3
doctor no_changes (%) changes (%)
<int> <dbl> <dbl>
1 1 15.9 84.1
2 2 54.1 45.9
3 3 17.8 82.2

从我的角度来看,如果每个医生都有一个随机抽样的数据集 x-rays ,假设他们“思考类似”,有和没有变化的案例的百分比应该几乎相同,但这里的情况并非如此。

我们正在与其中一位医生交谈,他告诉我们,一位医生可能会说 x-ray 上发生了变化。另一个可以说一些不同的东西,因为通常他们不会以二进制方式看待变化 - 例如 amount/size的变化可以决定标签,每个医生可能有不同的 cutoff在脑海中。

知道我开始想 removing/centering labels bias .这是我想出的:
  • 因为我认识医生 1(假设他是最好的专家)我决定将医生 2 和医生 3 的标签“移动”到医生 1 的方向。
  • 我收集了 300 张新图片,并将其中 3 张全部发送至 label他们(所以这次每张图片是 labelled 由 3 位不同的医生拍摄)。比我检查了医生 1 和 2/3 之间标签的分布。例如,对于医生 1 和 2,我得到了类似的信息:
  • doctor2             no_changes changes all
    doctor1 no_changes 15 3 18
    changes 154 177 331
    all 169 180

    从中可以看出医生2有 169lebeled的情况下因为没有变化,医生 1 只同意他的意见 15案件。知道我已经将无变化情况下医生 2 的标签(概率)从 [1, 0] 更改为 [15/169, 1- 15/169]。同样,医生 2 有 180 x-rays变更案例和医生1同意他在 177案例,所以我已经更改了医生 2 的标签(概率),将案例从 [0, 1] 更改为 [1 - 177/180, 177/180]。
  • 为医生 3 做同样的事情

  • 这样做我已经用 cross-entropy 重新训练了神经网络损失。

    我的问题是,我的解决方案是正确的还是应该做一些不同的事情?这个问题还有其他解决方案吗?

    最佳答案

    它看起来是正确的。

    使用交叉熵,您实际上将模型输出的概率分布与一些引用概率进行比较 P(changes = 1) .在二元分类中,我们通常假设我们的训练数据遵循经验分布,即产生 1.00.0取决于标签。正如您已经注意到的那样,情况并非如此,例如以防我们对我们的数据不完全有信心。

    您可以将引用概率表示为:

    P(changes = 1) = P(changes = 1, doc_k = 0) + P(changes = 0, doc_k = 1)

    我们只是边缘化所有可能的第 k 个医生决定。 P(changes = 0) 类似.每个联合分布可以进一步扩展:
    P(changes = 1, doc_k = L) = P(changes = 1 | doc_k = X) P(doc_k = L)

    条件是您通过将每个医生与 oracle 医生 1 进行比较来计算的常数。鉴于您拥有的数据,我想不出更好的方法来近似此概率。 (但是,您可以尝试使用一些附加注释来改进它)。 P(doc_k = X)概率只是 01 ,因为我们肯定知道每个医生给出了什么注释。

    所有这些扩展都符合您的解决方案。例如,第二位医生没有检测到任何变化:
    P(changes = 0) = P(changes = 0 | doc_2 = 0) * 1 + 0 = 15/169

    并以更改为例:
    P(changes = 1) = 0 + P(changes = 1 | doc_2 = 1) * 1 = 177/180

    在这两种情况下,常量 01来自概率值 P(doc_2 = L) .

    关于classification - 如何调整分类任务中标签的分级偏差?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60779647/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com