- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
这是我第一次接触机器学习,所以我想弄清楚这一切是如何工作的。我有一个数据集,其中汇总了每个球员的所有统计数据,以便与我的高中棒球队一起比赛。我还有一份名单,上面列出了我高中时进入美国职棒大联盟的所有球员。我想做的是将数据分成训练集和测试集,然后将其提供给 scikit-learn 包中的某种算法并预测制作 MLB 的概率。
因此,我查看了许多资源,发现了建议我从线性 SVC 开始的备忘单。
因此,据我了解,我需要将我的数据分解为训练样本,其中每一行都是一名球员,每一列都是关于球员的一段数据(安打率、上垒率、yada、yada),X_train ;以及每个球员单行的相应真值矩阵,它只是 1(在 MLB 中打过球)或 0(没有在 MLB 中打过球),Y_train。从那里开始,我只需执行 Fit(X,Y),然后我可以使用 predict(X_test) 来查看它是否获得正确的 Y_test 值。
这看起来是算法、方法和应用程序的合乎逻辑的选择吗?
编辑以提供更多信息:数据由出场场数、安打数、本垒打数、三振出局数等20个特征组成,大部分是球员职业生涯的基本统计;一些是击球率,例如安打率。
我总共有大约 10k 行要处理,所以我可以根据它拆分数据;但我不知道如何以最佳方式拆分数据,因为 <1% 已经成为 MLB。
最佳答案
好的,这里有几个可能需要做的步骤:
准备您的数据集。在实践中,您可能想要缩放功能,但我们将不考虑它以使第一个工作模型尽可能简单。因此只需要将数据集拆分为测试/训练集。您可以手动打乱记录并将前 X% 的示例作为训练集,但 scikit-learn 库中已经有一个函数:http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html .您可能想要确保两者:正例和负例都存在于训练和测试集中。为此,您可以在测试/训练拆分之前将它们分开,以确保 70% 的负样本和 70% 的正样本进入训练集。
让我们选择一个简单的分类器。我将在这里使用逻辑回归:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ,但其他分类器也有类似的 API。
创建分类器并对其进行训练很容易:
clf = LogisticRegression()
clf.fit(X_train, y_train)
现在是时候做出我们的第一个预测了:
y_pred = clf.predict(X_test)
模型的一个非常重要的部分是它的评估。这里使用accuracy并不是一个好主意:正例的数量很少,所以无条件返回0的模型可以获得很高的分数。我们可以改用 f1 分数:http://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html .
如果您想预测概率而不是标签,您可以只使用分类器的 predict_proba
方法。
就是这样。我们有一个工作模型!当然,您可以尝试改进很多东西,例如缩放特征、尝试不同的分类器、调整它们的超参数,但这应该足以开始。
关于algorithm - 在 scikit-learn 中使用什么估算器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40271269/
架构设计(九):估算 作者: Grey 。 原文地址: 博客园:架构设计(九):估算 。 CSDN:架构设计(九):估算 。 估算在系统设计中非常重要,这决定了你的设计是否可以满足要求,
我有以下 JavaScript 代码,它使用 sql.js库与远程 SQL 数据库通信。 var xhr = new XMLHttpRequest(); xhr.open('GET', 'https:
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
我正在使用启用了 ARC 的 Cocos2d 2.0。我的游戏是一个随机生成的游戏,所以我需要在游戏中间的场景中加载/卸载纹理(spritesheet-batchnode)。我正在尝试从文件中删除 s
我有一个不完整的数据框,incomplete_df,如下所示。我想用相应 id 的平均 amount 来估算缺失的 amount。如果该特定 id 的平均值本身就是 NaN(参见 id=4),我想使用
我正在研究 NOAA AVHRR 31 年的每日海面温度 (SST) 数据。数据采用 NetCDF 格式,维度为 28(经)x 40(纬度)x 11686(天)。我应该计算每月的气候平均值(例如 31
我想为给定现有值的变量估算缺失值。 在 var2 ,我们注意到有很多NA s。 如果任何 2 个 ID 相同,则它们的值 var2是相同的。 如果 id 没有 var2 的值,就像 id==2 的情况
我想了解(大概)读取 Android SD 卡上存储的大文件(50MB 到 100MB)需要多长时间。我在 Google Nexus One 上的 Android 2.3.3 上使用以下代码。这会给我
估计 json 对象(如果 JSon 大小可用)将在 MongoDB 中占用多少存储内存的最佳方法是什么?有某种相关公式吗? 最佳答案 有 Object.bsonsize() 方法 mongo She
我有缺失值的数据框 (DF1),我想从不同的数据框 (DF2) 中估算这些缺失值,同时保留索引而不对它们进行排序(非常重要)。我正试图找到最有效的方法来做到这一点。 DF1: index id t
我正在尝试估算将返回大量结果的应用引擎查询的结果总量。 为了做到这一点,我为每个实体分配了一个介于 0 和 1 之间的随机 float 。然后我执行了我想用以下 3 个设置估计总结果的查询: * I
我正在尝试制作一个简单的 js 机器人,它检查每个区 block 的 eth(或链的主要 token )并将其发送到另一个钱包。 我有一个工作机器人: const { ethers } = requi
我最近一直在考虑将 Azure 作为许多具有 MSSql 数据库后端的小型 asp.net 网站的托管平台。我目前使用非 Microsoft 主机,每月收取固定费用。 我看过的 Azure 演示和网络
我是 C++ 新手。我正在尝试使用计算机系统的随机数生成器根据 Ernesto Cesaro 定理统计确定 Pi 的值。但是我现在所做的可以输入一个种子数并生成100个伪随机数,然后估计pi的值。生成
在我看来,我并不完全理解 FLOPS 的概念。在 CUDA SAMPLES 中,有 Matrix Multiplication Example (0_Simple/matrixMul)。在此示例中,每
我是一名优秀的程序员,十分优秀!