python - 迭代次数达到限制的收敛警告 : lbfgs failed to converge (status=1): STOP: TOTAL NO.-6ren

python - 迭代次数达到限制的收敛警告 : lbfgs failed to converge (status=1): STOP: TOTAL NO.

转载作者：行者123 更新时间：2023-12-04 04:27:36

28

4

我有一个由数字和分类数据组成的数据集，我想根据患者的医疗特征预测其不良结果。我为我的数据集定义了一个预测管道，如下所示:

X = dataset.drop(columns=['target'])
y = dataset['target']

# define categorical and numeric transformers
numeric_transformer = Pipeline(steps=[
    ('knnImputer', KNNImputer(n_neighbors=2, weights="uniform")),
    ('scaler', StandardScaler())])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

#  dispatch object columns to the categorical_transformer and remaining columns to numerical_transformer
preprocessor = ColumnTransformer(transformers=[
    ('num', numeric_transformer, selector(dtype_exclude="object")),
    ('cat', categorical_transformer, selector(dtype_include="object"))
])

# Append classifier to preprocessing pipeline.
# Now we have a full prediction pipeline.
clf = Pipeline(steps=[('preprocessor', preprocessor),
                      ('classifier', LogisticRegression())])

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

clf.fit(X_train, y_train)
print("model score: %.3f" % clf.score(X_test, y_test))

但是，在运行此代码时，我收到以下警告消息:

ConvergenceWarning: lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.
Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  extra_warning_msg=_LOGISTIC_SOLVER_CONVERGENCE_MSG)

    model score: 0.988

有人可以向我解释这个警告是什么意思吗？我是机器学习的新手，所以对我可以做些什么来改进预测模型有点迷茫。正如您从 numeric_transformer 中看到的，我通过标准化对数据进行了缩放。我也很困惑模型得分是多么高，以及这是好事还是坏事。

最佳答案

警告的意思是它主要说的是:建议尝试使求解器(算法)收敛。
lbfgs代表:“有限内存 Broyden-Fletcher-Goldfarb-Shanno 算法”。它是 Scikit-Learn 库提供的求解器算法之一。
有限内存一词仅表示它存储 只有少数 隐式表示梯度近似的向量。
它有更好的收敛在相对较小的数据集上。

但什么是算法收敛？
用简单的话来说。如果求解的误差在非常小的范围内(即几乎没有变化)，那么这意味着算法达到了解决方案(不必是最佳解决方案，因为它可能会停留在所谓的“局部最优” ”)。
另一方面，如果错误是 变化明显 (即使误差相对较小[例如在您的情况下分数很好]，但每次迭代的误差之间的差异大于某些容差)那么我们说算法没有收敛。
现在，您需要知道 Scikit-Learn API 有时会为用户提供选项来指定算法在以迭代方式搜索解决方案时应采用的最大迭代次数:

LogisticRegression(... solver='lbfgs', max_iter=100 ...)

如您所见，LogisticRegression 中的默认求解器是 'lbfgs'，最大迭代次数默认为 100。
最后，请注意，增加最大迭代次数不一定能保证收敛，但肯定会有所帮助!

更新:
根据您在下面的评论，一些可能有助于算法收敛的尝试(在许多中)提示是:

增加迭代次数:如本答案所示；

尝试不同的优化器:看 here ;

扩展您的数据:看 here ;

添加工程功能:看 here ;

数据预处理:看here - use case和 here ;

添加更多数据:看 here .

关于python - 迭代次数达到限制的收敛警告 : lbfgs failed to converge (status=1): STOP: TOTAL NO.，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62658215/

28

4

0

文章推荐： javascript - 同源 CPU 密集型 iframe 的单独事件循环

文章推荐： python - 如何在 Seaborn distplot 中绘制 Pandas 日期时间序列？

文章推荐： samesite - SameSite ="Lax"和 SameSite ="Strict"有什么区别？

mysql - Action 次数
你好，我有一张 table : from | to | item | count ------- Jack | Danie| food | 10 Danie| Maria| food | 2 Ja
java - 计算单元测试运行期间发生的 gc 次数
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎偏离主题，因为它缺乏足够的信息来诊断问题。更详细地描述您的问题或 include a mini
java - 如何计算可能的最大 session 次数
我正在尝试解决以下面试问题 Given two arrays firstDay and lastDay representing the intervals in days of possible m
c - 这段代码中调用了 fork() 次数？
这个问题已经有答案了: Explanation of a output of a C program involving fork() (2 个回答) 已关闭 9 年前。这是我从我的研究所去年的试卷
javascript - 重复一个 div 次数
如何在 html 页面上重复一个 div X 次，可以说我想设置方差来声明重复次数。重复这个部分 5 次，我假设它是用 JS 的。 black BLUE WHITE strip 我
php - 计算成功执行PDO php的execute()次数
我目前使用类中的函数将数据插入数据库，如果每行成功插入(从 csv 文件)，则会记录一条消息(logMessage 函数)，以显示哪一行成功或失败。但是我想要已导入数据库的成功执行的计数。我遇到了一些
for-loop - 如何循环特定(可变)次数？
这个问题可能看起来非常基础，但我很难弄清楚如何做。我有一个整数，我需要使用 for 循环来循环整数次。首先，我尝试了—— fn main() { let number = 10; // An
algorithm - 确定合并排序的调用(激活)次数
我正在准备 CS 125 期末考试，其中(简要地)介绍了 Big O Notation。鉴于: Mergesort 的最佳运行时间为 O(N lg(N))，最坏运行时间为 O(N lg (N)) 有
java - 我们可以举行的最大 session 次数
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
c - 骰子实验，增加最大 throw 次数
我正在构建一个简单的程序来计算骰子实验中数字的频率，但我尝试扩展它并将最大 throw 次数增加到巨大的数字，通过反复试验，我发现最大限制为519253。使用这个最大值，我也无法创建任何新数组，它会
algorithm - 优化:最小化 session 次数
这是一道面试题 There is an airline company that wants to provide new updates to all of its flight attendant
Excel VBA 自动化 - 根据单元格值复制行 "x"次数
我正在尝试以一种可以节省我无数小时的繁琐数据输入的方式实现 Excel 自动化。这是我的问题。我们需要为所有库存打印条形码，其中包括 4,000 种型号，每种型号都有特定数量。 Shopify是我们
javascript - 优化 ng-repeat 次数 |angularJS
我想根据给定的预定义级别(从级别 1 到级别 6)分离代码中的所有内容，现在我的 JSON 读取 $scope.myJson=[{ id: 1, level: 1, name: "any
javascript - 在悬停时限制 jquery 执行(次数/时间)
我创建了一个菜单，它使用一些 CSS 和 jquery 在悬停时显示其子菜单。事情是，如果用户在菜单项上多次悬停，它会有点滑稽。这是网址:http://91.202.168.37/~ibi/ ，这是
python - 使用 pandas 一周中每天的平均 Action 次数
假设我对每小时的事件数进行了如下统计: np.random.seed(42) idx = pd.date_range('2017-01-01', '2017-01-14', freq='1H') df
hadoop - 在 Hadoop 中读取文件时的 seeks() 次数？
我想确保我正确理解了这个概念: 在 Hadoop 权威指南中指出:“设计文件系统的目标始终是减少与要传输的数据量相比的查找次数。”在此声明中，作者指的是 Hadoop 逻辑 block 的“seeks
c++ - 计算 std::vector 的复制和 move 次数
我有一个用 C++11 编写的程序，我想计算 std::vector 的 move 和复制(构造和赋值)次数。对象。有办法吗？最好的问候最佳答案否。 std::vector<>的执行没有办法做到
git - 有什么方法可以查看在 github 上访问/下载 repo 的最后/次数？
我们组织的帐户空间不足，我们一直在尝试剔除一些较旧的存储库。问题在于一些较旧的存储库可能仍然是事件服务的依赖项(即使它们多年未更新)。我知道我们可以跟踪克隆，但据我所知，我们看不到直接下载/pull

首页

博学

6Ren·AI

商城

python - 迭代次数达到限制的收敛警告 : lbfgs failed to converge (status=1): STOP: TOTAL NO.