python - ScikitLearn ML 模型的 cv_results.mean() =0 且 cv

python - ScikitLearn ML 模型的 cv_results.mean() =0 且 cv_results.std() = 0

转载作者：行者123 更新时间：2023-11-30 09:32:18

我有一个来 self 的蜂窝数据使用情况的数据集 ( https://github.com/ivonnics/Machine-Learning/blob/master/CJD2.csv )，其中指示:日期、时间和流量。从“日期”功能中，我区分了一周中的不同日子(周一 - 周日)，从“时间”功能中，我考虑了四 (4) 个不同的时间范围(午夜、早上、下午和晚上)。通过这 11 个"new"功能，我试图找到工作日、时间范围和使用的数据量之间的关系。我修改了 Jason Brownlee (@TeachTheMachine) 程序(您可以从我的 github https://github.com/ivonnics/Machine-Learning/blob/master/Data%20Analytical%20Github.py 下载修改后的版本)，并得到使用的所有不同模型的结果:均值和标准差等于零 (0)。我不知道明白为什么...有什么帮助或建议吗？程序:

# -*- coding: utf-8 -*-
"""
Created on Sat Nov 10 15:18:54 2018
@author: ivonnics
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn import preprocessing
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from pandas.plotting import scatter_matrix

url = "https://github.com/ivonnics/Machine-Learning/blob/master/CJD2.csv"
dataset = pd.read_html(url)
Tabla=dataset[0]
dataset=Tabla[['Date', 'Time', 'Volume']]

dataset1=[pd.to_datetime(hour, format="%I:%M:%S %p", errors="coerce") for hour in dataset['Time']]

print('-----------------------------------------------------------')
#print('TESTANDO')
dataset2=pd.Series(dataset1).dt.hour
#print(dataset2)
dataset3={'Hour': dataset2}
#print(dataset3)
dataset4=pd.DataFrame(dataset3, columns = ['Hour'])
#print(dataset4.head(20))

print(dataset.head(20))
print('-----------------------------------------------------------')
print(dataset.shape)
print('-----------------------------------------------------------')
print(dataset.describe())
print('-----------------------------------------------------------')


print(dataset.nunique())
print('-----------------------------------------------------------')

print('-----------------------------------------------------------')


df_new1= pd.concat([dataset, dataset4], axis=1)

print('-----------------------------------------------------------')
print(df_new1[(df_new1['Hour'] == 5)])
print('-----------------------------------------------------------')

dataset5=[pd.to_datetime(weekday, format="%m/%d/%Y", errors="coerce") for weekday in dataset['Date']]


dataset6=pd.Series(dataset5).dt.weekday_name
dataset7={'Weekday': dataset6}

dataset8=pd.DataFrame(dataset7, columns = ['Weekday'])

df_new2= pd.concat([df_new1, dataset8], axis=1)

df_new2['Madrugada'] = np.where((df_new2['Hour']>=0) & (df_new2['Hour']<6), 1, 0)
df_new2['Mañana'] = np.where((df_new2['Hour']>=6) & (df_new2['Hour']<12), 1, 0)
df_new2['Tarde'] = np.where((df_new2['Hour']>=12) & (df_new2['Hour']<18), 1, 0)
df_new2['Noche'] = np.where((df_new2['Hour']>=18) & (df_new2['Hour']<24), 1, 0)
df_new2['Lunes'] = np.where((df_new2['Weekday']=='Monday'), 1, 0)
df_new2['Martes'] = np.where((df_new2['Weekday']=='Tuesday'), 1, 0)
df_new2['Miércoles'] = np.where((df_new2['Weekday']=='Wednesday'), 1, 0)
df_new2['Jueves'] = np.where((df_new2['Weekday']=='Thursday'), 1, 0)
df_new2['Viernes'] = np.where((df_new2['Weekday']=='Friday'), 1, 0)
df_new2['Sábado'] = np.where((df_new2['Weekday']=='Saturday'), 1, 0)
df_new2['Domingo'] = np.where((df_new2['Weekday']=='Sunday'), 1, 0)


print(df_new2.shape)
print(df_new2.head(20))


df_new3=df_new2[['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes', 'Sábado', 'Domingo', 'Madrugada', 'Mañana', 'Tarde', 'Noche', 'Volume']]

#Analysis
print(df_new3.shape)
print(df_new3.head(20))
print(dataset.describe())
print(df_new2.groupby('Weekday').size())
print(df_new3.groupby('Madrugada').size())
print(df_new3.groupby('Mañana').size())
print(df_new3.groupby('Tarde').size())
print(df_new3.groupby('Noche').size())
print(df_new3.groupby('Volume').size())
# box and whisker plots
df_new3.plot(kind='box', subplots=True, layout=(4,3), sharex=False, sharey=False)
plt.show()
# histograms
df_new3.hist()
plt.show()
# scatter plot matrix
scatter_matrix(df_new3)
plt.show()

# Split-out validation dataset
array = df_new3.values
X = array[:,0:11]
#print(X)
Y = array[:,11]


#print(Y)
lab_enc = preprocessing.LabelEncoder()
encoded = lab_enc.fit_transform(Y)
Y=encoded
#print(Y)
print('')

validation_size = 0.20
seed = 7
X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)


num_folds = 10
num_instances = len(X_train)
seed = 7
scoring = 'accuracy'


models = []

models.append(('LR', LogisticRegression())) #FUNCIONA!!!
models.append(('KNN', KNeighborsClassifier())) #FUNCIONA!!!
models.append(('CART', DecisionTreeClassifier())) #FUNCIONA!!!
models.append(('NB', GaussianNB())) # FUNCIONA!!!
models.append(('SVM', SVC())) #FUNCIONA!!!
# evaluate each model in turn
results = []
names = []

for name, model in models:
    kfold = model_selection.KFold(n_splits=10, random_state=seed)
    cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)
    results.append(cv_results)
    names.append(name)
    msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
    print(msg)


# Compare Algorithms
fig = plt.figure()
fig.suptitle('Algorithm Comparison')
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(names)
plt.show()

这是我在模型评估后得到的结果:

LR: 0.000000 (0.000000)
KNN: 0.000000 (0.000000)
CART: 0.000000 (0.000000)
NB: 0.000000 (0.000000)
SVM: 0.000000 (0.000000)

提前感谢您的帮助...何塞

最佳答案

您的情况存在问题，您有 621 个样本，其中有 593 个唯一标签。这就是为什么确定性估计器在 Kfold 之后无法找到任何验证样本的任何学习值(实际上，您可以使用 StratifiedKfold 在 nfold=2 通过 KNN 和 CART，但现在并不重要)。

print(len(Y))
print(len(np.unique(Y)))

输出:

621
593

测试它并制作一个技巧，实际上是某种有趣的增强，用于在train_test_split之前进行测试:

X = 5 * list(X)
Y = 5 * list(Y)

你的结果马上就会好得多:

LR: 0.015700 (0.000403)
KNN: 0.028583 (0.000403)
CART: 0.018519 (0.001610)
NB: 0.018519 (0.001610)
SVM: 0.010870 (0.000403)

因此，在您的原始情况下，在每个验证步骤中，估计器将面对一个样本，并为其估计标签概率(或标签)，但会得到一个与学习的标签不同的验证(测试)标签( s)。结果，它将返回 0.00 准确度。

为了更好地理解我们有

0100000000 256
0100000000 675
0100000000 912

在您的训练集中，将其分为训练和测试集之后。估算器将学习它。由于唯一标签数量相对较多，验证集将包含以下内容:

0100000000 112
0100000000 745
0100000000 312

然后它尝试估计正确的标签，其值是:

0100000000

这将是这样的，具体取决于估计器及其选项:

{256: 0.333, 675: 0.333, 912: 0.333}

因此，验证(测试)准确性:

0100000000 112 at this label: 0.00
0100000000 745 at this label: 0.00
0100000000 312 at this label: 0.00

我希望现在每个人都清楚了。

关于python - ScikitLearn ML 模型的 cv_results.mean() =0 且 cv_results.std() = 0，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53381853/

文章推荐： tensorflow - MNIST分类:mean_squared_error损失函数和tanh激活函数

文章推荐： java - 将 URL 列表转换为树

文章推荐： java - 桌面客户端网络服务器，聊天应用程序

ml - 将运算符传递给 ML 中的函数
如何将运算符传递给 ML 中的函数？例如，考虑这个伪代码: function (int a, int b, operator op) return a op b 这里，运算符可以是 op +
google-cloud-ml - 在谷歌云 ML 中运行作业后出错
我尝试在 Google Cloud ML 上运行来自 github 的 word-RNN 模型。提交作业后，我在日志文件中收到错误。这是我提交的训练内容 gcloud ml-engine jobs
ocaml - 如何在另一个 .ml 文件中访问一个 .ml 文件中定义的类型
在 a.ml 中定义了一个记录类型 t 并且也是透明地定义的在 a.mli 中，即在 d 接口(interface)中，以便类型定义可用到所有其他文件。 a.ml 还有一个函数 func，它返回一
ml.net - 有没有办法重新打开 ML.NET 模型生成器？
关闭 ML.NET 模型生成器后，是否可以为创建的模型重新打开它？我可以删除创建的模型并重新开始，但这并不理想。最佳答案不，不是真的。 AutoML/Model Builder 可以生成代码并将
ml.net - 使用 ML.NET 训练模型时在空字符串上使用占位符
我有一个关于训练可以预测名称是否为女性的 ML.NET 的问题。该模型可以使用这样的管道进行训练: var mlContext = new MLContext(); IDataView trainin
ml.net - 如何在中间件(ML.NET)中将模型添加到PredictionEnginePool？
我在 ASP.NET Core 应用程序中使用 ML.NET，并在 Startup 中使用以下代码: var builder = services.AddPredictionEnginePool();
Python ML - 如何最好地拯救 python ml 值数组
我使用 sklearn 创建了一个模型进行分类。当我调用函数 y_pred2 = clf.predict (features2) 时，它会返回一个包含我的预测的所有 id 的列表 y_pred2 =
google-cloud-ml - Cloud-ML 作业没有这样的文件或目录
我已向 cloud ml 提交了训练作业。但是，它找不到 csv 文件。它就在桶里。这是代码。 # Use scikit-learn to grid search the batch size and
azure - Databricks 运行时 ML 和 ML 流程之间的区别
我是 Azure Databricks 的新手，尽管我在 Databricks 方面有很好的经验，但仅限于 Data Engg 方面。我对 Databricks Runtime ML 和 ML Flo
google-cloud-ml - 无法部署 Cloud ML 模型
为什么我尝试将经过训练的模型部署到 Google Cloud ML，却收到以下错误: Create Version failed.Model validation failed: Model meta
azure - Databricks 运行时 ML 和 ML 流程之间的区别
我是 Azure Databricks 的新手，尽管我在 Databricks 方面有很好的经验，但仅限于 Data Engg 方面。我对 Databricks Runtime ML 和 ML Flo
azure - Azure ML 和 Azure ML 实验之间的区别
我是 Azure ML 新手。我有一些疑问。有人可以澄清下面列出的我的疑问吗？ Azure ML 服务与 Azure ML 实验服务之间有什么区别。 Azure ML 工作台和 Azure ML St
google-cloud-ml-engine - 如何计算 Cloud ML 作业的成本？
我的 Cloud ML 训练作业已完成，输出如下: "consumedMLUnits": 43.24 我如何使用此信息来确定培训工作的成本？我无法在以下两个选项之间做出决定: 1)根据这个page ，
google-cloud-ml - Google Cloud ML Tensorflow 版本
docs for setting up Google Cloud ML建议安装 Tensorflow 版本 r0.11。我观察到 r0.12 中新提供的 TensorFlow 函数在 Cloud ML
apache-spark-ml - 如何从 Spark ML Logistic 回归模型中获取模型摘要？
我正在关注一个来自 - https://spark.apache.org/docs/2.3.0/ml-classification-regression.html#multinomial-logist
sml - 标准 ML : how to compile a ML program using mosmlc?
我想使用 mosmlc 将我的 ML 程序编译成可执行二进制文件。但是，我找不到太多关于如何操作的信息。我想编译的代码在这里http://people.pwf.cam.ac.uk/bt288/tic
azure - 从另一个 Azure ML 工作区访问 Azure ML 模型注册表
假设我有两个 Azure ML 工作区: Workspace1 - 由一个团队(Team1)使用，该团队仅训练模型并将模型存储在 Workspace1 的模型注册表中 Workspace2 - 由另一
azure - 设置 azure ml 时加载命令模块 azure ml 时出错
我尝试使用以下命令行在 Azure 上的 Linux(Ubuntu) 数据科学虚拟机上设置我的 Azure 机器学习环境: az ml 环境设置但是，它显示错误为加载命令模块 ml 时出错。一直在谷
azure - 从另一个 Azure ML 工作区访问 Azure ML 模型注册表
假设我有两个 Azure ML 工作区: Workspace1 - 由一个团队(Team1)使用，该团队仅训练模型并将模型存储在 Workspace1 的模型注册表中 Workspace2 - 由另一
azure - 设置 azure ml 时加载命令模块 azure ml 时出错
我尝试使用以下命令行在 Azure 上的 Linux(Ubuntu) 数据科学虚拟机上设置我的 Azure 机器学习环境: az ml 环境设置但是，它显示错误为加载命令模块 ml 时出错。一直在谷

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - ScikitLearn ML 模型的 cv_results.mean() =0 且 cv_results.std() = 0