gpt4 book ai didi

python - Python 中的逻辑回归和交叉验证(使用 sklearn)

转载 作者:行者123 更新时间:2023-11-28 21:06:48 24 4
gpt4 key购买 nike

我正在尝试通过逻辑回归解决给定数据集上的分类问题(这不是问题所在)。为了避免过度拟合,我试图通过交叉验证来实现它(这就是问题所在):我缺少一些东西来完成这个程序。我在这里的目的是确定准确性

但让我具体一点。这就是我所做的:

  1. 我将集合分成训练集和测试集
  2. 我定义了要使用的对数回归预测模型
  3. 我使用 cross_val_predict 方法(在 sklearn.cross_validation 中)进行预测
  4. 最后,我测量了准确度

代码如下:

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.cross_validation import train_test_split
from sklearn import metrics, cross_validation
from sklearn.linear_model import LogisticRegression

# read training data in pandas dataframe
data = pd.read_csv("./dataset.csv", delimiter=';')
# last column is target, store in array t
t = data['TARGET']
# list of features, including target
features = data.columns
# item feature matrix in X
X = data[features[:-1]].as_matrix()
# remove first column because it is not necessary in the analysis
X = np.delete(X,0,axis=1)
# divide in training and test set
X_train, X_test, t_train, t_test = train_test_split(X, t, test_size=0.2, random_state=0)

# define method
logreg=LogisticRegression()

# cross valitadion prediction
predicted = cross_validation.cross_val_predict(logreg, X_train, t_train, cv=10)
print(metrics.accuracy_score(t_train, predicted))

我的问题:

  • 据我了解直到最后才考虑测试集并且应该对训练集进行交叉验证。这就是我在 cross_val_predict 方法中插入 X_train 和 t_train 的原因。 Thuogh,我收到一条错误消息:

    ValueError:发现样本数量不一致的输入变量:[6016, 4812]

    其中6016是整个数据集的样本数,4812是数据集拆分后训练集中的样本数

  • 在这之后,我不知道该怎么办了。我的意思是:X_test 和 t_test 何时发挥作用?我不知道在交叉验证后我应该如何使用它们以及如何获得最终的准确性。

奖励问题:我还想在交叉验证。我怎样才能做到这一点?我已经看到定义管道有助于扩展,但我不知道如何将其应用于第二个问题。

我真的很感激任何帮助:-)

最佳答案

这是在示例数据帧上测试的工作代码。代码中的第一个问题是目标数组不是 np.array。您也不应该在您的功能中包含目标数据。下面我将说明如何使用 train_test_split 手动拆分训练和测试数据。我还展示了如何使用包装器 cross_val_score 自动拆分、拟合和评分。

random.seed(42)
# Create example df with alphabetic col names.
alphabet_cols = list(string.ascii_uppercase)[:26]
df = pd.DataFrame(np.random.randint(1000, size=(1000, 26)),
columns=alphabet_cols)
df['Target'] = df['A']
df.drop(['A'], axis=1, inplace=True)
print(df.head())
y = df.Target.values # df['Target'] is not an np.array.
feature_cols = [i for i in list(df.columns) if i != 'Target']
X = df.ix[:, feature_cols].as_matrix()
# Illustrated here for manual splitting of training and testing data.
X_train, X_test, y_train, y_test = \
model_selection.train_test_split(X, y, test_size=0.2, random_state=0)

# Initialize model.
logreg = linear_model.LinearRegression()

# Use cross_val_score to automatically split, fit, and score.
scores = model_selection.cross_val_score(logreg, X, y, cv=10)
print(scores)
print('average score: {}'.format(scores.mean()))

输出

     B    C    D    E    F    G    H    I    J    K   ...    Target
0 20 33 451 0 420 657 954 156 200 935 ... 253
1 427 533 801 183 894 822 303 623 455 668 ... 421
2 148 681 339 450 376 482 834 90 82 684 ... 903
3 289 612 472 105 515 845 752 389 532 306 ... 639
4 556 103 132 823 149 974 161 632 153 782 ... 347

[5 rows x 26 columns]
[-0.0367 -0.0874 -0.0094 -0.0469 -0.0279 -0.0694 -0.1002 -0.0399 0.0328
-0.0409]
average score: -0.04258093018969249

有用的引用:

关于python - Python 中的逻辑回归和交叉验证(使用 sklearn),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42305862/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com