java - 测试和训练集中不同数量的特征-6ren

java - 测试和训练集中不同数量的特征

转载作者：行者123 更新时间：2023-11-30 11:12:11

25

4

我正在尝试构建一个线性 svm 分类器来对未知测试数据进行分类。

但是，由于文本文档没有固定长度，如何保证新文档具有相同的特征长度？

Src 和 Dest 的属性数量不同:2 != 1484

 LibSVM classifier = new LibSVM();
 classifier.setKernelType(new SelectedTag(LibSVM.KERNELTYPE_LINEAR, LibSVM.TAGS_KERNELTYPE));
 classifier.buildClassifier(data1);


 System.out.println("done");
 data2.setClassIndex(data2.numAttributes() - 1);
 double res = classifier.classifyInstance(data2.instance(0));

数据 2

@data
'This is a string!','?'

无论如何，我可以构建一个与当前模型具有相同数量属性的特征向量吗？或者除此之外还有其他解决方案吗？

最佳答案

我怀疑这是否可行，因为 SVM 只能处理数字数据。如果你想使用字符串，你要么必须使用 another kernel ，或使用过滤器将您的字符串数据转换为数字数据。

我建议你试试 StringToWordVector过滤器:

Converts String attributes into a set of attributes representing word occurrence (depending on the tokenizer) information from the text contained in the strings. The set of words (attributes) is determined by the first batch filtered (typically training data).

正如该过滤器的描述所说:您首先对训练数据进行批量过滤，这将初始化过滤器。如果您随后将过滤器应用于您的测试数据(即使是新的未知数据)，结果将始终与您过滤的训练数据兼容。

最大的问题是您的模型是否必须在程序终止后继续存在。如果没有，没问题。

Instances train = ...   // from somewhere
Instances test = ...    // from somewhere
Standardize filter = new Standardize();
filter.setInputFormat(train);  // initializing the filter once with training set
Instances newTrain = Filter.useFilter(train, filter);  // configures the Filter based on train instances and returns filtered instances
Instances newTest = Filter.useFilter(test, filter);    // create new test set

( source )

由于你的过滤器已经在你的训练数据上初始化，你现在可以通过重复最后一行将它应用于任何看起来像未过滤训练集的数据集

Instances newTest2 = Filter.useFilter(test2, filter);    // create another new test set

如果您想保存您的模型并在您的应用程序多次运行期间反复应用它，您应该使用 FilteredClassifier。 (看看 this answer ，我在其中解释了 FilteredClassifier 的用法。)tl;dr:过滤器是分类器的一部分，可以与其一起序列化，保留对输入的转换数据。

关于java - 测试和训练集中不同数量的特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27031265/

25

4

0

文章推荐： java - 阅读 GSON 以获取顶级标签列表

文章推荐： java - 生成 SQL 查询变体的良好实践

文章推荐： java - Java 中的方法特定常量

文章推荐： java - 如何用 Java 为该服务编写 TestCase？

具有由实现定义的常量字段的 Rust 特征
设置我希望能够定义一个特征，使得任何实现该特征的结构不仅必须实现函数，而且还必须为某些常量指定值。所以也许是这样的: trait MyTrait { const MY_CONST: u8;
Scala 特征/蛋糕模式与案例类
在我的 Web 应用程序中，授权用户至少有 4 个“方面”:http session 相关数据、持久数据、facebook 数据、运行时业务数据。我决定使用案例类组合而不是特征至少有两个原因: 性状
D 特征 - 完整数据成员列表
我正在尝试使用以下代码从类中获取完整数据成员的列表: import std.stdio; import std.traits; class D { static string[] integr
rust - 无法将数组传递给具有任意长度切片的 From 特征
我正在尝试实现 From对于我的一种类型。它应该消耗任意长度的行(仅在运行时已知)并从行中获取数据。编译器提示 &[&str; 2]不是 &[&str] ，即它不能将固定大小的切片转换为任意长度的切片
r - 从决策树中提取使用过的列名/特征
有人可以请你这么好心，并指出一种提取拟合树中使用的列/特征的方法，使用如下代码: library(dplyr) library(caret) library(rpart) df % dplyr
新类型的 Rust 特征
假设我定义了一个 Group所有组操作的特征。是否可以创建一个包装器AGroup超过 Group无需手动派生所有操作？基本上，我想要这个: #[derive (Copy, Debug, Clone,
rdf - 用一次观察表示两个属性/特征
最近浏览了Markus Stocker的博客他很好地解释了如何在使用 observation 时表示传感器观察结果。 SSN 的模块本体论。我完全理解他的解释，但我发现有一件事多余地代表了一个的两个特
使用泛型和案例类方法的 Scala 特征
我有以下情况/代码； trait Model { def myField: String } case class MyModel(myField: String) extends Model
scala - 案例类继承另一个类/特征
我想让一个案例类扩展一个特征以下是我的要求: 我需要为 child 使用案例类。这是一个硬性要求，因为 scopt ( https://github.com/scopt/scopt ) parent
rdf - 用一次观察表示两个属性/特征
最近浏览了Markus Stocker的博客他很好地解释了如何在使用 observation 时表示传感器观察结果。 SSN 的模块本体论。我完全理解他的解释，但我发现有一件事多余地代表了一个的两个特
使用泛型和案例类方法的 Scala 特征
我有以下情况/代码； trait Model { def myField: String } case class MyModel(myField: String) extends Model
Python - 决策树和处理独特的标签/特征
不确定标题是否完全有意义，对此感到抱歉。我是机器学习新手，正在使用 Scikit 和决策树。这就是我想做的；我想获取所有输入并包含一个独特的功能，即客户端 ID。现在，客户端 ID 是唯一的，无法以
c++ - 特征:将数组映射到矩阵大小未知的矩阵
我想读取具有 Eigen 的 MNIST 数据集，每个文件都由一个矩阵表示。我希望在运行时确定矩阵大小，因为训练集和测试集的大小不同。 Map> MNIST_dataset((uchar*)*_dat
c++ - 特征:访问矩阵中的分散元素
在 MATLAB 中，我可以选择一个分散的子矩阵，例如: A = [1 ,2 ,3;4,5,6;7,8,9] A([1,3],[1,3]) = [1,3;7,9] 有没有用 Eigen 做到这一点的聪
generics - 无法为通用结构实现 Into 特征
我在执行 Into 时遇到问题Rust 中通用结构的特征。下面是我正在尝试做的简化版本: struct Wrapper { value: T } impl Into for Wrapper {
c++ - 特征:在复杂矩阵上选择函数
我有这段 matlab 代码，我想用 Eigen 编写: [V_K,D_K] = eig(K); d_k = diag(D_K); ind_k = find(d_k > 1e-8); d_k(ind_
c++ - 特征:通过引用访问矩阵的列
我正在使用 Eigen C++ 矩阵库，我想获取对矩阵列的引用。文档说要使用 matrix_object.col(index)，但这似乎返回了一个表示列的对象，而不是简单地引用原始矩阵对象中的列。我担
algorithm - 特征 - 旋转矩阵的重新正交化
在乘以很多旋转矩阵之后，由于舍入问题(去正交化)，最终结果可能不再是有效的旋转矩阵重新正交化的一种方法是遵循以下步骤: 将旋转矩阵转换为轴角表示法 ( link ) 将轴角转换回旋转矩阵 ( lin
PHP 特征 - 定义通用常量
定义可由命名空间中的多个类使用的常量的最佳方法是什么？我试图避免太多的继承，所以扩展基类不是一个理想的解决方案，我正在努力寻找一个使用特征的好的解决方案。这在 PHP 5.4 中是可行的还是应该采用不
PHP 特征 - 定义通用常量
定义可由命名空间中的多个类使用的常量的最佳方法是什么？我试图避免太多的继承，所以扩展基类不是一个理想的解决方案，我正在努力寻找一个使用特征的好的解决方案。这在 PHP 5.4 中是可行的还是应该采用不

首页

博学

6Ren·AI

商城

java - 测试和训练集中不同数量的特征