gpt4 book ai didi

python - python scikit 中更快的数据拟合(或学习)功能

转载 作者:行者123 更新时间:2023-11-28 16:40:01 25 4
gpt4 key购买 nike

我将 scikit 用于我的机器学习目的。虽然我完全按照其官方文档中提到的步骤进行操作,但我遇到了两个问题。这是代码的主要部分:

1) trdata 是使用 sklearn.train_test_split 创建的训练数据。2) ptest和ntest分别是positives和negatives的测试数据

## Preprocessing

scaler = StandardScaler(); scaler.fit(trdata);

trdata = scaler.transform(trdata)
ptest = scaler.transform(ptest); ntest = scaler.transform(ntest)



## Building Classifier

# setting gamma and C for grid search optimization, RBF Kernel and SVM classifier

crange = 10.0**np.arange(-2,9); grange = 10.0**np.arange(-5,4)
pgrid = dict(gamma = grange, C = crange)
cv = StratifiedKFold(y = tg, n_folds = 3)

## Threshold Ranging

clf = GridSearchCV(SVC(),param_grid = pgrid, cv = cv, n_jobs = 8)


## Training Classifier: Semi Supervised Algorithm

clf.fit(trdata,tg,n_jobs=8)

问题 1) 当我在 GridSearchCV 中使用 n_jobs = 8 时,代码运行到 GridSearchCV 但挂起或说花费了特别长的时间而没有导致执行 'clf.fit' ,即使对于非常小的数据集也是如此。当我删除它然后两者都执行但 clf.fit 需要很长时间才能收敛大型数据集。我的数据大小为 600 x 12 矩阵,包括正负矩阵。你能告诉我 n_jobs 究竟会做什么以及应该如何使用它吗?此外,是否有任何更快的拟合技术或代码修改可用于使其更快?

问题 2) StandardScaler 也应该用于正负数据的组合或单独使用吗?我想它必须结合使用,因为只有这样我们才能在测试集上使用缩放器参数。

最佳答案

SVC 似乎对未规范化的数据非常敏感,您可以尝试通过以下方式规范化数据:

from sklearn import preprocessing
trdata = preprocessing.scale(trdata)

关于python - python scikit 中更快的数据拟合(或学习)功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20605154/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com