gpt4 book ai didi

python - GridSearchCV 没有关于高冗长的报告

转载 作者:太空宇宙 更新时间:2023-11-03 15:10:01 24 4
gpt4 key购买 nike

好的,我只想说,我对 SciKit-Learn 和数据科学完全陌生。但这是问题所在,也是我目前对该问题的研究。代码在底部。

总结

我正尝试使用 BernoulliRBM 进行类型识别(例如数字),并尝试使用 GridSearchCV 查找正确的参数。但是我没有看到任何事情发生。在很多使用冗长设置的示例中,我看到了输出和进度,但在我的示例中,它只是说,

Fitting 3 folds for each of 15 candidates, totalling 45 fits

然后它坐在那里什么都不做......永远(或 8 小时,这是我在高冗长设置下等待的最长时间)。

我有一个相当大的数据集(1000 个二维数组,每个数组的大小为 428 x 428),所以这可能是问题所在,但我还将详细程度设置为 10,所以我觉得我应该看到某种输出或进步。此外,就我的“目标”而言,它要么是 0 要么是 1,它要么是我正在寻找的对象 (1),要么不是 (0)。

前期研究

  • 我查看了 sklearn.preprocessing 以查看是否有必要,这似乎不是问题所在(但同样,我对此完全陌生)。
  • 我增加了冗长度
  • 我从使用 3D 数据列表切换到使用 scipy csr 矩阵列表。
  • 我在高冗长设置下等了 8 个小时,我仍然没有看到任何事情发生。
  • 我从不使用管道切换到使用管道
  • 我篡改了 gridsearchcv 的各种参数并尝试创建假的(较小的)数据集来练习。

    def network_trainer(self, data, files):
    train_x, test_x, train_y, test_y = train_test_split(data, files, test_size=0.2, random_state=0)

    parameters = {'learning_rate':np.arange(.25, .75, .1), 'n_iter':[5, 10, 20]}
    model = BernoulliRBM(random_state=0, verbose=True)
    model.cv = 2
    model.n_components = 2

    logistic = linear_model.LogisticRegression()
    pipeline = Pipeline(steps=[('model', model), ('clf', logistic)])

    gscv = grid_search.GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=10)
    gscv.fit(train_x, train_y)
    print gscv.best_params_

我真的很感激在这里朝着正确的方向轻推。感谢您考虑我的问题。

最佳答案

好吧,所以我只是总结一下我在过去几天里想到的一切。

  • 在 Windows 8.1 上,如果您仍然希望 n_jobs 过于冗长,请不要将它设置为 1 以外的任何值。
  • 在我的例子中,尽管我只有 n_jobs = 1,但我的所有处理器内核仍参与计算,所以这要么是一个错误,要么应该更好地记录下来。
  • 我犯了一个可怕的错误,那就是使用 csr 矩阵列表,所以基本上,请阅读文档,然后在提问之前再阅读一遍。

再次感谢@Barmaley.exe 提供的初始提示。

关于python - GridSearchCV 没有关于高冗长的报告,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28005307/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com