python - 在 Keras 中使用 sample_weight 进行序列标注-6ren

python - 在 Keras 中使用 sample_weight 进行序列标注

转载作者：太空狗更新时间：2023-10-29 22:28:45

25

4

我正在处理不平衡类的顺序标记问题，我想使用 sample_weight 来解决不平衡问题。基本上，如果我训练模型大约 10 个时期，我会得到很好的结果。如果我训练更多的 epoch，val_loss 会不断下降，但我会得到更差的结果。我猜该模型只是检测到更多的优势类别，而不利于较小的类别。

该模型有两个输入，用于词嵌入和字符嵌入，输入是从 0 到 6 的 7 个可能类别之一。

有了填充，我的词嵌入输入层的形状是(3000, 150)，词嵌入的输入层是(3000, 150, 15)。我使用 0.3 分割来测试和训练数据，这意味着用于词嵌入的 X_train 是 (2000, 150) 和 (2000, 150, 15) 用于字符嵌入。 y 包含每个单词的正确类别，编码为 7 维单热向量，因此其形状为 (3000, 150, 7)。 y 同样分为训练集和测试集。然后将每个输入输入双向 LSTM。

输出是一个矩阵，其中为 2000 个训练样本的每个单词分配了 7 个类别之一，因此大小为 (2000, 150, 7)。

起初，我只是尝试将 sample_weight 定义为长度为 7 的 np.array，其中包含每个类别的权重:

count = [list(array).index(1) for arrays in y for array in arrays]
count = dict(Counter(count))
count[0] = 0
total = sum([count[key] for key in count])
count = {k: count[key] / total for key in count}
category_weights = np.zeros(7)
for f in count:
    category_weights[f] = count[f]

但我收到以下错误 ValueError:为形状为 (2000, 150, 7) 的输入找到形状为 (7,) 的 sample_weight 数组。 sample_weight 无法广播。

查看文档，看起来我应该传递一个形状为 (samples, sequence_length) 的二维数组。所以我创建了一个 (3000, 150) 数组，其中串联了每个序列的每个单词的权重:

weights = []

for sample in y:
    current_weight = []
    for line in sample:
        current_weight.append(frequency[list(line).index(1)])
    weights.append(current_weight)

weights = np.array(weights)

在 compile() 中添加 sample_weight_mode="temporal" 选项后，通过 sample_weight 参数将其传递给 fit 函数。

我首先收到一个错误，告诉我维度是错误的，但是在只为训练样本生成权重之后，我最终得到了一个 (2000, 150) 数组，我可以用它来拟合我的模型。

这是定义 sample_weights 的正确方法还是我做错了？我不能说我注意到添加权重后有任何改进，所以我一定是漏掉了什么。

最佳答案

我认为您混淆了 sample_weights 和 class_weights。检查 docs有点我们可以看出它们之间的区别:

sample_weights 用于为每个训练样本提供权重。 这意味着您应该传递一个具有相同数量的一维数组元素作为您的训练样本(指示每个样本的权重)。如果您使用的是时间数据，您可以传递一个二维数组，使您能够为每个样本的每个时间步赋予权重。

class_weights 用于为每个输出类提供权重或偏差。这意味着您应该为您尝试分类的每个类别传递一个权重。此外，此参数需要将字典 传递给它(不是数组，这就是您出现该错误的原因)。例如考虑这种情况:

class_weight = {0 : 1. , 1: 50.}

在这种情况下(二元分类问题)，与 0 类相比，1 类样本的权重(或“相关性”)是 50 倍.这样您就可以补偿不平衡的数据集。这是另一个有用的 post在处理不平衡数据集时，详细解释这个选项和其他要考虑的选项。

If I train for more epochs, val_loss keeps dropping, but I get worse results.

可能您过度拟合了，正如您正确怀疑的那样，您的数据集所具有的不平衡类可能是造成这种情况的原因。补偿类权重应该有助于缓解这种情况，但是可能仍有其他因素会导致超出此问题/答案范围的过度拟合(因此请务必在解决此问题后注意这些因素)。

从你的帖子来看，在我看来你需要的是使用 class_weight 来平衡你的训练数据集，为此你需要传递一个字典指示您的 7 个类(class)之间的重量比。仅当您想为每个样本提供自定义权重以供考虑时，才考虑使用sample_weight。

如果您想对这两者进行更详细的比较，请考虑查看 this answer我发布了一个相关问题。 剧透:sample_weight 覆盖 class_weight，因此您必须使用其中之一，但不能同时使用这两个，因此请注意不要混合使用它们。

更新:截至本次编辑(2020 年 3 月 27 日)，查看 source code training_utils.standardize_weights() 我们可以看到它现在支持两者 class_weights 和 sample_weights:

Everything gets normalized to a single sample-wise (or timestep-wise) weight array. If both sample_weights and class_weights are provided, the weights are multiplied together.

关于python - 在 Keras 中使用 sample_weight 进行序列标注，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48315094/

25

4

0

文章推荐： python - 我如何检查字典中的循环/后边？ {...}

文章推荐： python - 如何获取 pandas 数据框对象值的模式？

文章推荐： python - 如何在 Windows 10 中将 GLPK 与 cvxopt 一起使用？

文章推荐： c# - C#从URL中提取域名

具有数据增强功能的 Keras ImageDataGenerator sample_weight
我有一个关于在使用 ImageDataGenerator 的 Keras 数据增强上下文中使用 sample_weight 参数的问题。假设我有一系列简单的图像，只有一类对象。因此，对于每个图像，我将
python - Tensorflow - 带有 sample_weight 的自定义损失函数
我正在尝试运行接受 sample_weights 的自定义函数。我正在关注此文档 https://www.tensorflow.org/api_docs/python/tf/keras/losses/
neural-network - Keras sample_weight 数组错误
我正在研究脑损伤分割问题，我正在尝试使用受以下启发的代码来实现 Unet:https://github.com/jocicmarko/ultrasound-nerve-segmentation 我试图
python - XGBOOST:sample_Weights 与 scale_pos_weight
我有一个高度不平衡的数据集，想知道在哪里计算权重，因此我试图理解 scale_pos_weight 之间的区别XGBClassifier 中的参数和 sample_weight fit 的参数方法。如
python - SGDClassifier 中的 sample_weight 是如何工作的？
我想在训练 SGDClassifier 时使用重要性采样。我已经看到 fit 和 partial_fit 方法中有一个 sample_weight 参数，但我不确定这个参数是如何工作的。假设我有 1
python - 同时使用 sample_weight 和 class_weight
我的数据集已经有加权示例。在这个二元分类中，与第二类相比，我也有更多的第一类。我可以同时使用 sample_weight 并在 model.fit() 函数中使用 class_weight 进一步重
python - sklearn GridSearchCV 不在评分函数中使用 sample_weight
我有每个样本具有不同权重的数据。在我的申请中，重要的是在估计模型和比较备选模型时考虑这些权重。我正在使用 sklearn 来估计模型并比较备选超参数选择。但是这个单元测试表明 GridSearchC
python - 为什么keras model.fit with sample_weight 初始化时间长？
我正在使用 keras与 tensorflow (版本 2.2.0)后端来训练分类器来区分两个数据集 A 和 B，我已将它们混合到一个 Pandas DataFrame 对象中 x_train (有两
python - 如何修正 sklearn.naive_bayes 中的 sample_weight？
我正在通过 sklearn 使用不平衡数据实现 Naive Bayes。我的数据有超过 16k 条记录和 6 个输出类别。我尝试用 sklearn.utils.class_weight 计算的 sa
python - 如何在 sklearn 算法中使用 sample_weight 参数
我有一个非常不平衡的数据集，我正在执行分类任务。因此，我尝试了所有算法，即(决策树、朴素贝叶斯、逻辑回归)，对于每一种算法，我都在 scikit learn 中遇到了一个名为 sample_weigh
python - sklearn Ridge 和 sample_weight 给出内存错误
我正在尝试使用样本权重数组运行简单的 Sklearn Ridge 回归。X_train 是一个约 200k x 100 的二维 Numpy 数组。当我尝试使用 sample_weight 选项时出现内
python - 在 Keras 中使用 sample_weight 进行序列标注
我正在处理不平衡类的顺序标记问题，我想使用 sample_weight 来解决不平衡问题。基本上，如果我训练模型大约 10 个时期，我会得到很好的结果。如果我训练更多的 epoch，val_loss
tensorflow - Keras - fit_generator 中的 class_weight 与 sample_weights
在 Keras(使用 TensorFlow 作为后端)中，我正在构建一个模型，该模型正在处理具有高度不平衡类(标签)的巨大数据集。为了能够运行训练过程，我创建了一个生成器，它将数据 block 提供给
class - 尝试通过 scikit-learn 中的 sample_weight 平衡我的数据集
我使用 RandomForest 进行分类，我得到了一个不平衡的数据集，如:5830-no, 1006-yes。我尝试用 class_weight 和 sample_weight 平衡我的数据集，但我
python - sklearn LogisticRegression predict_proba() 在使用 sample_weight 参数时给出错误的预测
我正在试用 SciKit Learn。我以为我会尝试加权逻辑回归，但在使用 sample_weight 参数初始化 sklearn 的 LogisticRegression 对象时，我得到了无意义的预
scikit-learn - scikit-learn GridSearchCV 中的 sample_weight 参数形状错误
将 sample_weight 参数传递给 GridSearchCV 会由于形状不正确而引发错误。我怀疑交叉验证无法根据数据集相应地处理 sample_weights 的拆分。第一部分:使用 sam
tensorflow2.0 - 对 tensorflow 损失类 (categorical_crossentropy) 进行子分类以创建加权损失函数时出现意外的关键字参数 'sample_weight'
努力使子类损失函数在 Tensorflow (2.2.0) 中工作。最初尝试了此代码(我知道它对其他人有用 - 请参阅 https://github.com/keras-team/keras/iss
scikit-learn - `sample_weight` 对 `DecisionTreeClassifier` 在 sklearn 中的工作方式有何影响？
我读过 relevant documentation那 : Class balancing can be done by sampling an equal number of samples fro
tensorflow - TF2.0 中 Keras 损失中 `sample_weight` 参数的奇怪形状要求
根据TF文件，sample_weight参数可以有形状 [batch_size] .相关文档引用如下: sample_weight: Optional Tensor whose rank is eit
python - 当为具有多个输出的模型尝试 train_on_batch 时，Keras 中的 sample_weight 出现问题
我正在使用 Keras 训练深度神经网络。我使用 train_on_batch 函数来训练我的模型。我的模型有两个输出。我打算做的是通过每个样本的某个特定值来修改每个样本的损失。所以由于 Keras

首页

博学

6Ren·AI

商城

python - 在 Keras 中使用 sample_weight 进行序列标注