machine-learning - 部分拟合多元 SGDRegressor-6ren

machine-learning - 部分拟合多元 SGDRegressor

转载作者：行者123 更新时间：2023-11-30 09:29:59

25

4

我目前正在尝试使用 scikits learn 中的 SGDRegressor 来解决大型数据集 X ~= (10^6,10^4) 上的多变量目标问题。因此，我使用以下代码部分生成设计矩阵 (X)，其中每次迭代都会生成大约 (10^3,10^4) 大小的批处理:

design = self.__iterX__(events)
reglins = [linear_model.SGDRegressor(fit_intercept=True) for i in range(nTargets)]

for X,times in design:
    for i in range(nTargets):
        reglins[i].partial_fit(X,y.ix[times].values[:,i])

但是我得到以下堆栈跟踪:

File ".../Enthought/Canopy_64bit/User/lib/python2.7/site-    packages/sklearn/linear_model/stochastic_gradient.py", line 841, in partial_fit
    coef_init=None, intercept_init=None)
File ".../Enthought/Canopy_64bit/User/lib/python2.7/site-packages/sklearn/linear_model/stochastic_gradient.py", line 812, in _partial_fit
    sample_weight, n_iter)
File ".../Enthought/Canopy_64bit/User/lib/python2.7/site-packages/sklearn/linear_model/stochastic_gradient.py", line 948, in _fit_regressor
    intercept_decay)
File "sgd_fast.pyx", line 508, in sklearn.linear_model.sgd_fast.plain_sgd (sklearn/linear_model/sgd_fast.c:8651)
    ValueError: floating-point under-/overflow occurred.

环顾四周，这似乎是由于没有正确标准化 X 造成的。我知道 scikits learn 有多种功能，但是考虑到我在 block 中生成 X，是否足以简单地规范化每个 block ，或者我是否需要找出一种方法来一次规范化整个列？

顺便问一下，partial_fit 函数不允许多变量目标是否有特殊原因？

最佳答案

您可以安装一个 block 并应用于其他 block :

from sklearn import preprocessing
scaler = preprocessing.StandardScaler()
x1 = scalar.fit_transform(X_block_1)
xn = scalar.transform(X_block_n)

您可以选择其他标准化方法from this page 。

关于machine-learning - 部分拟合多元 SGDRegressor，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22915100/

25

4

0

文章推荐： java - 在 Java 中跨类共享条件和锁定变量

文章推荐： javascript - 根据循环打印带边的正方形

文章推荐： java - SWT，Jface - 为 tableviewer 列有效实现自己的渲染器？

python - SGDRegressor() 不断地不提高验证性能
我的 SGDRegressor 的模型拟合在大约 20'000 个训练记录后不会增加或减少其在验证集(测试)上的性能。即使我尝试将 penalty、early_stopping (True/False
python - SGDRegressor 无意义的结果
我尝试为 x 的线性函数回归做一个简单的测试用例，但是 SGDRegressor 给了我一个错误的结果 import numpy as np from sklearn.linear_model imp
python - 在数据集上分块训练 SGDRegressor
对于机器学习任务，我需要处理相当大的数据集。结果，我无法在我的算法中一次拟合整个数据集。我正在寻找一种方法来在数据集上部分训练我的算法，简单地提供新 block 是行不通的，因为我的算法将只是 ret
machine-learning - 部分拟合多元 SGDRegressor
我目前正在尝试使用 scikits learn 中的 SGDRegressor 来解决大型数据集 X ~= (10^6,10^4) 上的多变量目标问题。因此，我使用以下代码部分生成设计矩阵 (X)，其
python - Scikit - SGDRegressor 不适合
您好，我正在尝试使用 scilearn 拟合一小组数据。 import numpy as np from sklearn import linear_model, model_selection X
python - 如何在(GridSearchCV)拟合模型后打印估计系数？ (SGDRegressor)
我是 scikit-learn 的新手，但它满足了我的期望。现在，令人抓狂的是，唯一剩下的问题是我找不到如何打印(或者更好的是，写入一个小文本文件)它估计的所有系数，它选择的所有特征。有什么方法可以做
machine-learning - LinearRegression 和 SGDRegressor 有什么区别？
据我了解，scikit-learn 中的 LinearRegression 类和 SGDRegressor 类都执行线性回归。但是，只有 SGDRegressor 使用梯度下降作为优化算法。那么Li
python - 如何在 scikit-learn 中使用 SGDRegressor
我正在尝试了解如何正确使用 scikit-learn 的 SGDRegressor 模型。为了适应数据集，我需要调用一个function fit(X,y)，其中x 是一个形状为 (n_samples,
python - 使用 scikit-learn 的 SGDRegressor 算法进行梯度下降
我正在租赁数据集上使用 scikit-learn 的 SGDRegressor 算法实现梯度下降，以根据面积预测租金，但得到奇怪的系数和截距，因此对租金的预测很奇怪。租赁数据集:rentals.csv
scikit-learn - 将 scikit-learn 中 SGDRegressor 的预测限制为正值
我正在 Kaggle 中解决一个标签为正数的知识问题。我尝试在 scikit-learn 中使用 SGDRegressor 来训练和测试模型。然而，学习模型的一些预测是否定的。因此，我想知道是否有一

首页

博学

6Ren·AI

商城

machine-learning - 部分拟合多元 SGDRegressor