gpt4 book ai didi

machine-learning - 为训练实例分配特定权重的策略

转载 作者:行者123 更新时间:2023-11-30 09:42:29 25 4
gpt4 key购买 nike

我正在开发一个机器学习分类模型,用户可以在其中提供有助于改进模型的标签实例。与之前可用于训练的实例相比,需要为用户提供的最新实例提供更多相关性。

特别是,我正在使用 Sklearn 库在 python 中开发我的机器学习模型。

到目前为止,我只找到了对特定实例进行过采样的策略作为问题的可能解决方案。通过这种策略,我将创建我想要赋予更高相关性的实例的多个副本。

我发现的其他策略,但在这些条件下似乎没有帮助:

  • 专注于为每个类别赋予权重的策略。默认情况下,该策略在 Sklearn 等多个库中被广泛使用。然而,这将这个想法概括到了类级别,并不能帮助我将注意力集中在特定实例上

我寻找了多种可能有助于为各个实例提供特定权重的策略,但大多数策略都关注类级别而不是实例级别权重。

我读到了一些建议,将损失函数乘以 tensorflow 模型中的某些因素,但这似乎主要适用于 tensorflow 中的神经网络模型。

我想知道是否有人有可能有助于解决此问题的其他方法的信息

最佳答案

I've look for multiple strategies that might help provide specific weights for individual instances but most have focused on class level instead of instance level weights.

这不准确;大多数 scikit-learn 分类器在其 fit 方法中提供了一个 sample_weight 参数,它正是这样做的。例如,这里是documentation Logistic回归引用:

sample_weight : array-like, shape (n_samples,) optional

Array of weights that are assigned to individual samples. If not provided, then each sample is given unit weight.

大多数 scikit-learn 分类器都存在类似的论点,例如decision trees , random forests等等,甚至对于 linear regression (不是分类器)。请务必检查SVM: Weighted samples文档中的示例。

其他框架的情况大致类似;例如,参见 Is there in PySpark a parameter equivalent to scikit-learn's sample_weight? 中自己的答案

此外,scikit-learn 还提供了一个实用函数,用于在数据集不平衡的情况下计算 sample_weight:sklearn.utils.class_weight.compute_sample_weight

关于machine-learning - 为训练实例分配特定权重的策略,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56955213/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com