gpt4 book ai didi

algorithm - 监督机器学习,产生训练有素的估计器

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:21:21 28 4
gpt4 key购买 nike

我有一个作业,我应该在其中使用 scikit、numpy 和 pylab 来执行以下操作:

“以下所有内容都应使用training_data.csv文件中的数据假如。 training_data 给你一组带标签的整数对,代表两个运动队的分数,标签给出运动。

编写如下函数:

plot_scores() 应该绘制数据的散点图。

predict(dataset) 应该产生一个训练有素的 Estimator 来猜测这项运动这导致了给定的分数(来 self 们保留的数据集,这将作为 1000 x 2 np 数组输入)。您可以使用 scikit 中的任何算法。

称为“预处理”的可选附加功能将处理数据集在我们将其传递给预测之前。"

这是我到目前为止所做的:

import numpy as np
import scipy as sp
import pylab as pl
from random import shuffle

def plot_scores():
k=open('training_data.csv')
lst=[]
for triple in k:
temp=triple.split(',')
lst.append([int(temp[0]), int(temp[1]), int(temp[2][:1])])
array=np.array(lst)
pl.scatter(array[:,0], array[:,1])
pl.show()

def preprocess(dataset):
k=open('training_data.csv')
lst=[]
for triple in k:
temp=triple.split(',')
lst.append([int(temp[0]), int(temp[1]), int(temp[2][:1])])
shuffle(lst)
return lst

在预处理中,我打乱了数据,因为我应该使用其中的一些进行训练,一些进行测试,但原始数据并不是完全随机的。我的问题是,我应该如何在预测(数据集)中“产生训练有素的估计器”?这应该是一个返回另一个函数的函数吗?哪种算法最适合根据如下所示的数据集进行分类:enter image description here

最佳答案

该任务可能希望您训练一个标准的 scikit 分类器模型并将其返回,即类似于

from sklearn.svm import SVC
def predict(dataset):
X = ... # features, extract from dataset
y = ... # labels, extract from dataset
clf = SVC() # create classifier
clf.fit(X, y) # train
return clf

尽管从函数名称 (predict) 判断,您应该检查它是否真的希望您返回经过训练的分类器或返回给定 dataset 参数的预测,因为那会更典型。

作为分类器,您基本上可以使用任何您喜欢的分类器。你的情节看起来像你的数据集是线性可分离的(类没有颜色,但我假设 blops 是两个类)。在线性可分数据上几乎没有任何事情会失败。尝试支持向量机、逻辑回归、随机森林、朴素贝叶斯……为了获得更多乐趣,您可以尝试绘制决策边界,请参见 here (其中还包含可用分类器的概述)。

关于algorithm - 监督机器学习,产生训练有素的估计器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33552182/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com