gpt4 book ai didi

python - 如何找到逻辑回归模型的特征的重要性?

转载 作者:IT老高 更新时间:2023-10-28 21:58:17 25 4
gpt4 key购买 nike

我有一个由逻辑回归算法训练的二元预测模型。我想知道哪些特征(预测变量)对于正类或负类的决定更重要。我知道有 coef_ 参数来自 scikit-learn 包,但我不知道它是否足以说明重要性。另一件事是我如何根据负类和正类的重要性来评估 coef_ 值。我还阅读了有关标准化回归系数的信息,但我不知道它是什么。

假设有肿瘤大小、肿瘤重量等特征来决定是否为恶性或非恶性的测试用例。我想知道哪些特征对于恶性而不是恶性预测更重要。有道理吗?

最佳答案

在线性分类模型(逻辑是其中之一)中了解给定参数的“影响”的最简单选项之一是考虑其系数的大小乘以相应参数的标准偏差在数据中。

考虑这个例子:

import numpy as np    
from sklearn.linear_model import LogisticRegression

x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])

m = LogisticRegression()
m.fit(X, y)

# The estimated coefficients will all be around 1:
print(m.coef_)

# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)

获得类似结果的另一种方法是检查模型在标准化参数上的拟合系数:

m.fit(X / np.std(X, 0), y)
print(m.coef_)

请注意,这是最基本的方法,并且存在许多其他用于查找特征重要性或参数影响的技术(使用 p 值、引导分数、各种“判别指数”等)。

我很确定您会在 https://stats.stackexchange.com/ 上得到更多有趣的答案。 .

关于python - 如何找到逻辑回归模型的特征的重要性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34052115/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com