gpt4 book ai didi

python - 使用深度学习处理文本分类中的嘈杂训练标签

转载 作者:行者123 更新时间:2023-11-28 17:24:18 37 4
gpt4 key购买 nike

我有一个由句子和相应的多标签组成的数据集(例如,一个句子可以属于多个标签)。在语言模型 (Word2Vec) 上结合使用卷积神经网络和循环神经网络,我能够获得很好的准确性。然而,它/太/擅长对输出建模,因为很多标签可以说是错误的,因此输出也是错误的。这意味着评估(即使有正则化和辍学)给人一种错误的印象,因为我没有基本事实。清理标签的成本高得令人望而却步。所以我只能以某种方式探索标签的“去噪”。我看过类似 "Learning from Massive Noisy Labeled Data for Image Classification" 的东西,但是他们假设要在输出上学习某种噪声协方差矩阵,我不确定如何在 Keras 中做到这一点。

有没有人以前处理过多标签文本分类设置中的噪声标签问题(最好使用 Keras 或类似工具)并且对如何学习带有噪声标签的稳健模型有好的想法?

最佳答案

cleanlab Python 包,pip install cleanlab,我是其作者,旨在解决此任务:https://github.com/cleanlab/cleanlab/ .这是一个专业的软件包,用于查找数据集中的标签错误和使用嘈杂的标签进行学习。它适用于开箱即用的任何 scikit-learn 模型,并且可以与 PyTorch、FastText、Tensorflow 等一起使用。

(2022 年 9 月更新)我已经为这个任务添加了资源(带有嘈杂标签的文本分类(标签有时会翻转到其他类):

示例 -- 查找数据集中的标签错误。

from cleanlab.classification import CleanLearning
from cleanlab.filter import find_label_issues
from cleanlab.count import estimate_cv_predicted_probabilities

# OPTION 1 - 1 line of code for sklearn compatible models
issues = CleanLearning(sklearnModel, seed=SEED).find_label_issues(data, labels)

# OPTION 2 - 2 lines of code to use ANY model
# just pass in out-of-sample predicted probabilities
pred_probs = estimate_cv_predicted_probabilities(data, labels)
ordered_label_issues = find_label_issues(
labels=labels,
pred_probs=pred_probs,
return_indices_ranked_by='self_confidence',
)

有关如何使用任何模型计算样本外预测概率的详细信息 here .

示例——使用噪声标签学习

在噪声标签上训练 ML 模型,就像在完美标签上训练一样。

# Code taken from https://github.com/cleanlab/cleanlab
from sklearn.linear_model import LogisticRegression

# Learning with noisy labels in 3 lines of code.
cl = CleanLearning(clf=LogisticRegression()) # any sklearn-compatible classifier
cl.fit(X=train_data, labels=labels)
# Estimate the predictions you would have gotten training with error-free labels.
predictions = cl.predict(test_data)

鉴于您可能还从事图像分类和音频分类工作,这里是 Image Classification with PyTorch 的工作示例和 Audio Classification with SpeechBrain .

可在此处获得其他文档:docs.cleanlab.ai

关于python - 使用深度学习处理文本分类中的嘈杂训练标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40009134/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com