java - 如何将 svm_problem 分成 5 份以进行自定义交叉验证

java - 如何将 svm_problem 分成 5 份以进行自定义交叉验证 - LIBSVM

转载作者：行者123 更新时间：2023-12-01 12:17:29

32

4

我正在尝试为 LIBSVM 实现自己的交叉验证功能，但是我对如何处理基于我的输入数据提供给我的数据结构感到困惑。

数据存储在结构svm_problem中:

public class svm_problem implements java.io.Serializable
{
    public int l;
    public double[] y;
    public svm_node[][] x;
}

地点:l是数据集的长度；y 是包含其目标值的数组；x 是一个指针数组，每个指针都指向一个训练 vector 的表示。

svm_node 定义为:

public class svm_node implements java.io.Serializable
{
    public int index;
    public double value;
}

我的目标是将训练数据分成5份，使用其中4份进行训练(函数svm_train)，并使用剩下的一份来测试结果(svm_predict)，以找到哪个C值具有最佳预测结果(基于误差函数)。

我的问题是如何根据数据结构将数据分成 5 个部分。如何才能将数据结构正确划分为5折，以便我继续进行C的优化。

我一直用这个作为指导: A Practical Guide to Support Vector Classification

如果有人可以提供一个示例或示例链接来说明如何最好地完成此操作，我们将不胜感激。谢谢。

最佳答案

svm_problem 描述了，对于 i = 0, 1, ..., l - 1，f(x[i]) 对于学习的函数 f 来说，应该大约等于 y[i]。每个元组 (x[i], y[i]) 都可以被视为来自您尝试查找的函数 f 的噪声样本。

要将数据集拆分为训练、交叉验证和测试数据集，您只需将{0, 1, ..., l - 1} 集合随机拆分为这 3 个部分。这通常是通过打乱数字列表 0, 1, ..., l - 1 然后说“前 60% 的数字是训练，接下来的 20% 是交叉验证，接下来的 20% 正在测试”或类似的内容。对于数据集的每个子集，您可以构造一个新的 svm_problem 来仅描述该数据部分。

关于java - 如何将 svm_problem 分成 5 份以进行自定义交叉验证 - LIBSVM，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26901913/

32

4

0

文章推荐： arm - ARM 中的 PUSH 和 POP 命令

文章推荐： java - 我应该在哪个文件夹中存储文本文件？

文章推荐： java - Maven插件: inject project classpath

libsvm - LibSVM 特征向量中的特征顺序重要吗？
我正在考虑使用 LibSVM我正在创建所需的特征向量。在几乎所有的示例数据中，特征都有一个顺序，例如: +1 1:3 2:1 3:5 4:2 10:8 想知道这个顺序是否重要，例如: +1 4:2
libsvm - LibSVM 和 scikit-learn 的准确度不同
对于相同的数据集和参数，LibSVM 和 scikit-learn 的 SVM 实现的精度不同，尽管 scikit-learn also uses LibSVM internally 。我忽略了什么
libsvm - 如何为 LIBSVM 和/或 TinySVM 制作训练和测试数据文件
当我打开 LIBSVM 训练数据的示例文件时，我无法理解文件结构。有人可以告诉我如何制作吗？以下是我用于预测歌曲的歌曲作者的训练数据(作为示例): 特征1:歌词中“爱”字的数量特征2:歌词中“ f
libsvm - 如何为 LIBSVM 和/或 TinySVM 制作训练和测试数据文件
当我打开 LIBSVM 训练数据的示例文件时，我无法理解文件结构。有人可以告诉我怎么做吗？下面是我预测歌曲作者的训练数据(作为例子): 特征一:歌词中“爱”字的数量特征2:歌词中“ friend
python - 将训练数据更改为 libsvm 格式以将其传递给 libsvm 中的 grid.py
我是 python 的新手，我正在尝试使用 libsvm。我正在尝试在 grid.py 的帮助下进行交叉验证。我从数据库中获取数据，因此它不是稀疏形式。有什么办法可以按照grid.py中数据格式的要求
apache-spark - 如何将 LIBSVM 模型(使用 LIBSVM 保存)读入 PySpark？
我有一个 LIBSVM 缩放模型(使用 svm-scale 生成)，我想将它移植到 PySpark。我天真地尝试了以下方法: scaler_path = "path to model" a = Min
libsvm - 如何理解LIBLINEAR中的偏置参数？
我不明白LIBLINEAR API中bias参数的含义。为什么在训练时由用户指定？难道它不应该只是从分离超平面到原点的距离，这是学习模型的参数吗？这来自自述文件: struct problem {
libsvm - 分类特征
对于 LibSVM。在'A Practical Guide to Support Vector Classification'中建议使用m数来表示m-category属性。例如 {red, gree
sed - libSVM 自动化标签脚本
是否有任何脚本可以将制表符分隔的数据文件转换为 libSVM 数据格式？例如我未标记的数据: -1 9.45 1.44 8.90 -1 8.12 7.11 8.90-1 8.11 6.12 8.78
svm - libsvm 的结果只支持两个类中的一个类
我的数据有一个奇怪的结果，我想知道您或其他任何人是否对此有任何见解.. 我有大约 5000 个数据和大约 16000 个属性，我用每个类的 2000 个数据(我只有两个类)训练了我的 RBF svm(
libSVM 有/没有概率的不同结果
我想知道为什么 libSVM 在使用或不使用概率进行预测时会给出不同的准确度结果，并且我在 this page 找到了常见问题解答其中说 Q: Why using svm-predict -b 0 a
matlab - LIBSVM - 无概率估计
我正在使用 LIBSVM for matlab。当我使用回归 SVM 时，它输出的概率估计是一个空矩阵，而在使用分类时此功能运行良好。这是正常行为吗，因为在 LIBSVM 自述文件中它说: -b pr
libSVM 有/没有概率的不同结果
我想知道为什么 libSVM 在使用或不使用概率进行预测时会给出不同的准确度结果，并且我在 this page 找到了常见问题解答其中说 Q: Why using svm-predict -b 0 a
读取 libsvm 的训练数据后崩溃
我已经扩展了我的训练数据并尝试进行交叉验证以获得最佳参数，但我不知道该怎么做。我尝试读取缩放后的训练数据并将它们分配给 svm_problem 变量: svm_node My_svm_node[164
使用 LibSVM 进行分类
我正在使用 LibSVM 进行一些多类分类。我使用 LibSVM 的 MATLAB 接口(interface)训练模型。然后，我以 C 语言可以识别的格式保存该模型。现在我想在 C 语言中使用 svm
python - LIBSVM 的多类表示
我的目标是制作一个多类分类器，用于处理不同的文件，这些文件将标记至少两个类(或标签)。这些文件是议会倡议的，因此每个文件都将在同义词库中以至少一对值进行索引。我在Python版本中使用“libsvm
MATLAB LIBSVM 安装
我打算在 MATLAB 中安装 libSVM 并下载了该文件。但是在 MATLAB 中似乎已经有了函数，svmtrain、svmpredict 等等。 MATLAB 是否已附带 LIBSVM？最佳
matlab - Libsvm 模型中支持向量是如何排列的？
我想使用从 Libsvm 模型派生的参数来预测新数据(不是在 matlab 中)。我想问模型中的支持向量(nSV，sv_coef，SVs)是否是按照模型中Label的顺序排列的？下面是使用线性核从fi
matlab - LibSVM 成本权重对于不平衡数据不起作用
我有一个数据集，负标签值的数量是正标签值数量的 163 倍，所以我有一个不平衡的数据集。我已经尝试过了: model = svmtrain(trainLabels, trainFeatures, '-
matlab - LIBSVM 是否处理训练中的缺失值？
我正在使用 libsvm 进行多元回归。我有一些缺失值的数据。例如，我有 10 个实例，每个实例有 10 个节点，每个节点有 10 个与其关联的链接。我需要使用 10 个实例来训练这 10 个节点。但

首页

博学

6Ren·AI

商城

java - 如何将 svm_problem 分成 5 份以进行自定义交叉验证 - LIBSVM