gpt4 book ai didi

machine-learning - 机器学习 - 支持向量机

转载 作者:行者123 更新时间:2023-11-30 09:13:27 25 4
gpt4 key购买 nike

我遇到了一个SVM示例,但我不明白。如果有人能解释一下预测是如何进行的,我将不胜感激。请看下面的解释:

数据集有 10,000 个观测值,具有 5 个属性(萼片宽度萼片长度花瓣宽度花瓣长度标签)。如果标签属于 I.setosa 类,则标签获得,如果属于其他类,则获得

6000 个观察结果已知(即它们属于 I.setosa 类,因此它们的标签属性为正)。其余 4000 的标签未知,因此假设标签为负。从剩余的 4000 中随机选择的 6000 个观测值2500 观测值构成10 倍交叉验证的集合。然后使用 SVM(10 倍交叉验证)对 8500 个观测值进行机器学习,并绘制 ROC

我们在这里预测什么?该集合有 6000 个观测值,其值已知。剩下的2500是如何获得负面标签的?当使用 SVM 时,一些积极的观察结果会得到消极的预测。这个预测对我来说没有任何意义。为什么那些 1500 个观察结果被排除在外。

我希望我的解释很清楚。如果我没有解释清楚,请告诉我。

最佳答案

我认为这个问题是一个语义问题:您将 4000 个样本集称为“未知”和“阴性”——其中哪一个适用是关键区别。

如果 4000 个样本的标签确实未知,那么我会使用以下方法进行 1 类 SVM6000 个标记样本 [c.f.验证如下]。然后通过测试 N=4000 组来评估它们是否属于 setosa 类来生成预测。

如果相反,我们有 6000 个 setosa 和 4000 个(已知)非 setosa,我们可以构建一个二进制基于此数据的分类器 [c.f.下面的验证],然后用它来预测 setosa 与 non on任何其他可用的非标记数据。

验证:通常作为模型构建过程的一部分,您将仅采用标记的子集训练数据并使用它来配置模型。对于未使用的子集,您将模型应用于数据(忽略标签),并将模型的预测内容与真实标签进行比较,以评估错误率。这适用于 1 级和上述 2 类情况。

摘要:如果所有数据都已标记,那么作为模型验证过程的一部分,通常仍会对其中的子集进行预测(忽略已知标签)。

关于machine-learning - 机器学习 - 支持向量机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17161458/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com