gpt4 book ai didi

machine-learning - 使用标记+预测数据重新训练生产模型?

转载 作者:行者123 更新时间:2023-11-30 09:44:19 25 4
gpt4 key购买 nike

假设我目前正在使用两个不同的类进行文本分类。我现在拥有的标记数据是我手动分类为 X 或 Y 的数据。数据集很大,数据集大小为 7000(3500 X,3500 Y)。

问题是我有 2000 个当前未标记的,但它们属于 X 或 Y(没有其他类别)。

我的模型的准确率、召回率和 f1 分数约为 95-98,具体取决于我使用的模型。

我们的目标是不再需要对 X 或 Y 进行手动分类,而只需让 ML 模型为我做这件事(ofc 有时会出错,但没关系)。

问题是,当我稍后重新训练模型时,我可以将模型的预测与手动分类的训练和验证数据一起使用吗?

我知道这是一个很难回答的问题,因为您没有掌握所有信息等。但我想我并不是唯一一个想要用 ML 模型替换当前手动完成的操作的人。

最佳答案

我认为这绝对不是一个好主意。通过这样做,您基本上只会提高模型对预测正确性的“信心”。如果您添加的文档与训练集中的文档非常不同怎么办?我宁愿建议两件事之一(尽管看起来你的模型已经具有非常好的性能):

  1. 如果您可以手动标记更多文档,也许您可​​以想出您想要标记的基本原理。例如,您可以手动标记那些预测概率较低的区域(您训练的分类器对预测的准确性不是很“有信心”)

  2. 如果您有大量未标记的数据,并且您希望它们的行为与训练数据不同,那么可能值得检查半监督学习。这将利用标记数据和未标记数据的分布。

关于machine-learning - 使用标记+预测数据重新训练生产模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54506219/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com