- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
将 sample_weight 参数传递给 GridSearchCV 会由于形状不正确而引发错误。我怀疑交叉验证无法根据数据集相应地处理 sample_weights 的拆分。
第一部分:使用 sample_weight 作为模型参数效果很好
让我们考虑一个简单的例子,首先没有 GridSearch:
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.model_selection import GridSearchCV
import matplotlib.pyplot as plt
dataURL = 'https://raw.githubusercontent.com/mcasl/PAELLA/master/data/sinusoidal_data.csv'
x = pd.read_csv(dataURL, usecols=["x"]).x
y = pd.read_csv(dataURL, usecols=["y"]).y
occurrences = pd.read_csv(dataURL, usecols=["Occurrences"]).Occurrences
my_sample_weights = (1 - occurrences/10000)**3
my_sample_weights
包含我分配给 x, y 中每个观察值的重要性,如下图所示。正弦曲线的点比形成背景噪声的点获得更高的权重。
plt.scatter(x, y, c=my_sample_weights>0.9, cmap="cool")
my_sample_weights
中包含的信息:
def make_model(number_of_hidden_neurons=1):
model = Sequential()
model.add(Dense(number_of_hidden_neurons, input_shape=(1,), activation='tanh'))
model.add(Dense(1, activation='linear'))
model.compile(optimizer='sgd', loss='mse')
return model
net_Not_using_sample_weight = make_model(number_of_hidden_neurons=6)
net_Not_using_sample_weight.fit(x,y, epochs=1000)
plt.scatter(x, y, )
plt.scatter(x, net_Not_using_sample_weight.predict(x), c="green")
my_sample_weights
的信息,预测的质量要好得多。
my_Regressor = KerasRegressor(make_model)
validator = GridSearchCV(my_Regressor,
param_grid={'number_of_hidden_neurons': range(4, 5),
'epochs': [500],
},
fit_params={'sample_weight': [ my_sample_weights ]},
n_jobs=1,
)
validator.fit(x, y)
...
ValueError: Found a sample_weight array with shape (1000,) for an input with shape (666, 1). sample_weight cannot be broadcast.
import sklearn
print(sklearn.__version__)
0.18.1
import keras
print(keras.__version__)
2.0.5
最佳答案
问题是,作为标准,GridSearch 使用 3 倍交叉验证,除非另有明确说明。这意味着数据的 2/3 数据点用作训练数据,1/3 用作交叉验证,这确实符合错误消息。 fit_params 的 1000 个输入形状与用于训练的训练示例数量 (666) 不匹配。调整大小,代码将运行。
my_sample_weights = np.random.uniform(size=666)
关于scikit-learn - scikit-learn GridSearchCV 中的 sample_weight 参数形状错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44661926/
我有一个关于在使用 ImageDataGenerator 的 Keras 数据增强上下文中使用 sample_weight 参数的问题。假设我有一系列简单的图像,只有一类对象。因此,对于每个图像,我将
我正在尝试运行接受 sample_weights 的自定义函数。我正在关注此文档 https://www.tensorflow.org/api_docs/python/tf/keras/losses/
我正在研究脑损伤分割问题,我正在尝试使用受以下启发的代码来实现 Unet:https://github.com/jocicmarko/ultrasound-nerve-segmentation 我试图
我有一个高度不平衡的数据集,想知道在哪里计算权重,因此我试图理解 scale_pos_weight 之间的区别XGBClassifier 中的参数和 sample_weight fit 的参数方法。如
我想在训练 SGDClassifier 时使用重要性采样。我已经看到 fit 和 partial_fit 方法中有一个 sample_weight 参数,但我不确定这个参数是如何工作的。 假设我有 1
我的数据集已经有加权示例。在这个二元分类中,与第二类相比,我也有更多的第一类。 我可以同时使用 sample_weight 并在 model.fit() 函数中使用 class_weight 进一步重
我有每个样本具有不同权重的数据。在我的申请中,重要的是在估计模型和比较备选模型时考虑这些权重。 我正在使用 sklearn 来估计模型并比较备选超参数选择。但是这个单元测试表明 GridSearchC
我正在使用 keras与 tensorflow (版本 2.2.0)后端来训练分类器来区分两个数据集 A 和 B,我已将它们混合到一个 Pandas DataFrame 对象中 x_train (有两
我正在通过 sklearn 使用不平衡数据实现 Naive Bayes。我的数据有超过 16k 条记录和 6 个输出类别。 我尝试用 sklearn.utils.class_weight 计算的 sa
我有一个非常不平衡的数据集,我正在执行分类任务。因此,我尝试了所有算法,即(决策树、朴素贝叶斯、逻辑回归),对于每一种算法,我都在 scikit learn 中遇到了一个名为 sample_weigh
我正在尝试使用样本权重数组运行简单的 Sklearn Ridge 回归。X_train 是一个约 200k x 100 的二维 Numpy 数组。当我尝试使用 sample_weight 选项时出现内
我正在处理不平衡类的顺序标记问题,我想使用 sample_weight 来解决不平衡问题。基本上,如果我训练模型大约 10 个时期,我会得到很好的结果。如果我训练更多的 epoch,val_loss
在 Keras(使用 TensorFlow 作为后端)中,我正在构建一个模型,该模型正在处理具有高度不平衡类(标签)的巨大数据集。为了能够运行训练过程,我创建了一个生成器,它将数据 block 提供给
我使用 RandomForest 进行分类,我得到了一个不平衡的数据集,如:5830-no, 1006-yes。我尝试用 class_weight 和 sample_weight 平衡我的数据集,但我
我正在试用 SciKit Learn。我以为我会尝试加权逻辑回归,但在使用 sample_weight 参数初始化 sklearn 的 LogisticRegression 对象时,我得到了无意义的预
将 sample_weight 参数传递给 GridSearchCV 会由于形状不正确而引发错误。我怀疑交叉验证无法根据数据集相应地处理 sample_weights 的拆分。 第一部分:使用 sam
努力使子类损失函数在 Tensorflow (2.2.0) 中工作。 最初尝试了此代码(我知道它对其他人有用 - 请参阅 https://github.com/keras-team/keras/iss
我读过 relevant documentation那 : Class balancing can be done by sampling an equal number of samples fro
根据TF文件,sample_weight参数可以有形状 [batch_size] .相关文档引用如下: sample_weight: Optional Tensor whose rank is eit
我正在使用 Keras 训练深度神经网络。我使用 train_on_batch 函数来训练我的模型。我的模型有两个输出。我打算做的是通过每个样本的某个特定值来修改每个样本的损失。所以由于 Keras
我是一名优秀的程序员,十分优秀!