SVM 整数特征-6ren

SVM 整数特征

转载作者：行者123 更新时间：2023-12-04 18:12:54

25

4

我在用于 python 的机器学习 scikit-learn 包中使用 SVM 分类器。我的特征是整数。当我调用 fit 函数时，我收到用户警告“Scaler 假定浮点值作为输入，得到 int32”，SVM 返回它的预测，我计算混淆矩阵(我有 2 个类)和预测精度。我试图避免用户警告，所以我将这些功能保存为 float 。确实，警告消失了，但我得到了完全不同的混淆矩阵和预测准确度(令人惊讶的是准确度要低得多)有人知道为什么会这样吗？更可取的是，我应该将特征作为 float 还是整数发送？谢谢!

最佳答案

您应该将它们转换为 float ，但转换方式取决于整数特征实际表示的内容。

你的整数是什么意思？它们是类别成员指标(例如:1 == 运动、2 == 商业、3 == 媒体、4 == 人……)还是具有顺序关系的数值度量(3 大于 2，这反过来又是大于 1)。例如，您不能说“人”大于“媒体”。这是没有意义的，并且会混淆机器学习算法给它这个假设。

因此，应将分类特征转换为将每个特征分解为每个可能类别的几个 bool 特征(值为 0.0 或 1.0)。看看DictVectorizer class在 scikit-learn 中更好地理解我所说的分类特征。

如果有数值，只需将它们转换为 float ，并可能使用 Scaler 将它们松散地置于 [-1, 1] 范围内。如果它们跨越几个数量级(例如单词出现的计数)，那么采用计数的对数可能会产生更好的结果。更多关于特征预处理的文档和文档的这一部分:http://scikit-learn.org/stable/modules/preprocessing.html

编辑:另请阅读本指南，其中包含更多有关特征表示和预处理的详细信息:http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf

关于SVM 整数特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12235439/

25

4

0

文章推荐： Joomla Menu-别名不止一次

文章推荐： bash - 在 ascii 中重命名 linux 目录的每个 unicode 文件

文章推荐： ajax - 谷歌索引 : _escaped_fragment_ not working for home page

文章推荐： scheme - Racket 中的各种续传

Fortran:整数*4 vs 整数(4) vs 整数(kind=4)
我正在尝试学习 Fortran，并且看到了很多不同的定义，我想知道他们是否正在尝试完成同样的事情。以下有什么区别？整数*4 整数(4) 整数(kind=4) 最佳答案在 Fortran >=90
list - 转换 [整数] -> 整数
我以前从未编程过，最近(1 周前)才开始学习!第一门类(class)是函数式编程，使用 Haskell。我有一项学校作业，我想通过删除一两个步骤来改进它，但我遇到了一个讨厌的错误。基本上，我创建了
graphql - 变量和参数的类型不匹配(整数/整数)
给定以下GraphQL请求和变量: 请求: query accounts($filter:AccountFilter, $first_:String, $skip_:Int) { accounts
javascript - 整数、整数+点和小数的正则表达式
我已经搜索了 StackOverflow，但找不到关于如何检查计算器应用程序的数字输入正则表达式的答案，该计算器应用程序将检查每个 keyup 的以下格式(jquery key up): 任何整数，例
Java 图形 : setClip vs clipRect vs repaint(int, 整数、整数、整数)
类似于我上一篇致歉的文章，但没有那么长篇大论。基本上我想知道当每次重绘调用只重绘屏幕的一小部分时，优化重绘到 JFrame/JPanel 的最佳选择是什么。此外，除了重绘重载之外，我并不是 100%
math - F#:整数 (%) 整数 - 是如何计算的？
所以在我的教科书中有一个使用 f# 的递归函数的例子 let rec gcd = function | (0,n) -> n | (m,n) -> gcd(n % m,m);; 使用此功能，我的教科书
haskell - 给测量数据结构的函数赋予什么类型？整数，整数，积分？
我有一个数据结构，例如表达式树或图形。我想添加一些“测量”功能，例如depth和 size . 如何最好地键入这些函数？我认为以下三个变体的用处大致相同: depth :: Expr -> Int
java - compareTo 与原语 -> 整数/整数
这样写比较好 int primitive1 = 3, primitive2 = 4; Integer a = new Integer(primitive1); Integer b = new Inte
Java 8 HashMap<整数, ArrayList<整数>>
我是 Java 8 新手，想根据键对 Map 进行排序，然后在值内对每个列表进行排序。我试图寻找一种 Java 8 方法来对键和值进行排序。HashMap>映射 map.entrySet().str
C++: vector <对< vector <整数>，整数>>
这就是我的目标... vector ,int> > var_name (x, pair (y),int>); 其中 x 是 vector var_name 的大小，y 是对内 vector 的大小。
java - 队列<整数> q = new LinkedList<整数>()
这里是 an answer to "How do I instantiate a Queue object in java?" , Queue is an interface. You can't i
java - 整数 i=3 vs 整数 i= 新整数 (3)
这个问题在这里已经有了答案: Weird Integer boxing in Java (12 个答案) Why are autoboxed Integers and .getClass() val
C++: 对< vector <整数>, vector <整数>> p;
我们可以使用 C++ STL 做这样的事情吗？如果是，我将如何初始化元素？我试图这样做，但没有成功。 pair,vector>p; p.first[0]=2; 最佳答案 Can we do som
javascript - 基于值(整数，字符串)或(整数， float )的混合返回数组的索引
您好，我正在尝试为百分比和整数数组中的数字找到索引。假设 arraynum = ['10%','250','20%','500'] 并且用户发送一个值 15%，这个数字在哪个范围内居住？我可以使用这段
mysql - 将 AVG(整数) 与类别的 AVG(整数) 进行比较
我与三列有关系:ProductName、CategoryID 和 Price。我需要选择仅那些价格高于给定类别中平均产品价格的产品。(例如，当apple(ProductName)是fruit(Cate
c++ - 如何打印对的第二部分？ EX : pair>
我已经坚持了一段时间，我正在尝试将一些数据配对在一起。这是我的代码。 #include #include using namespace std; int main() { pair data(
swift - '(整数，整数 )' is not identical to ' CGPoint'
我收到错误:'(Int, Int)' 与 'CGPoint' 不相同如何将 (Int, Int) 转换为 CGPoint let zigzag = [(100,100), (100,150)
c++ - 这是什么 C++ 语言构造 : # (i. e。哈希)整数 "path_to_header_or_cpp_file"<整数>？
我在 .cpp 文件中发现了以下代码。我不理解涉及头文件的构造或语法。我确实认识到这些特定的头文件与 Android NDK 相关。但是，我认为这个问题是关于 C++ 语法的一般问题。这些在某种程度上
scala - 整数 vs 整数 : type mismatch, 找到 : Int, 需要:字符串
我将这些输入到 Scala 解释器中: val a : Integer = 1; val b : Integer = a + 1; 我收到消息: :5: error: type mismatch;
c++ - vector <对<整数，整数>>v(大小)；打印时显示 0 作为值
C++:vector>v(size);当我试图打印出值时显示 0 作为值，但是当未声明 vector 大小时它显示正确的输出？为什么这样？例如: int x; cin>>x; vector>v(x);

首页

博学

6Ren·AI

商城

SVM 整数特征