gpt4 book ai didi

python - 逻辑回归找不到最佳决策边界

转载 作者:行者123 更新时间:2023-11-30 09:08:26 25 4
gpt4 key购买 nike

我在一个非常小且简单的可很好分离的数据集上运行逻辑回归。但我意识到模型无法找到最佳决策边界。我的错误在哪里?

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_model

sm_df = pd.DataFrame()
sm_df['x'] = [0.5,4.0,1.0,2.5,2.0,3.5,1.0,3.0, 1.0, 2.0]
sm_df['y'] = [1.0,3.5,1.0,3.5,1.0, 4.5, 2.0,3.0, 0.0, 2.5]
sm_df['Bad_data'] = [True, False, True, False, True, False, True, False, True, False]

log = linear_model.LogisticRegression()

log.fit(sm_df[['x','y']], sm_df['Bad_data'])
test_score = log.score(sm_df[['x','y']], sm_df['Bad_data'])
print("test score: ", test_score)

# Create scatterplot of dataframe
sns.lmplot('x', # Horizontal axis
'y', # Vertical axis
data=sm_df, # Data source
fit_reg=False, # Don't fix a regression line
hue="Bad_data", # Set color
scatter_kws={"marker": "D", # Set marker style
"s": 100}) # S marker size

plt.xlabel('x')
plt.ylabel('y')

# to plot desision bountdary
w0 = log.intercept_
w1, w2 = log.coef_[0]

X = np.array([0,4])
x2 = np.array([-w0/w2, -w0/w2 -w1*4/w2])
plt.plot(X, x2)
t_x = [1.5]
t_y = [1.8]
pr = log.predict([1.5,1.8])
plt.scatter(t_x, # Horizontal axis
t_y, c='r') # S marker size
plt.annotate(pr, ([1.5,1.9]))

my plot:

最佳答案

原因是因为错误并不是模型受到惩罚的唯一原因 - 还有一个正则化项。如果您使用类似的方法使正则化项更小

log = linear_model.LogisticRegression(C=10.)

那么在此示例中所有点都将被正确分类。这是因为模型将相对更多地关心正确地对点进行分类,而相对较少地关心正则化。这里参数C是正则化强度的倒数,默认为1。

这里有必要这样做的部分原因是您的数据没有标准化。如果您在应用逻辑回归之前对数据进行标准化(将 x 和 y 的均值设为 0,方差设为 1),那么您也可以得到与 C=1 的完美拟合。你可以用类似的东西来做到这一点

sm_df['x'] = (sm_df['x'] - sm_df['x'].mean()) / sm_df['x'].std()
sm_df['y'] = (sm_df['y'] - sm_df['y'].mean()) / sm_df['y'].std()

关于python - 逻辑回归找不到最佳决策边界,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46313895/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com