python - 使用 LibSVM 计算与 Mean/Stddev 对的最近匹配-6ren

python - 使用 LibSVM 计算与 Mean/Stddev 对的最近匹配

转载作者：太空狗更新时间：2023-10-29 22:28:12

25

4

我是 SVM 的新手，我正在尝试使用 Python 接口(interface)来 libsvm对包含均值和标准差的样本进行分类。但是，我得到了荒谬的结果。

此任务是否不适合 SVM，或者我使用 libsvm 时是否有错误？下面是我用来测试的简单 Python 脚本:

#!/usr/bin/env python
# Simple classifier test.
# Adapted from the svm_test.py file included in the standard libsvm distribution.
from collections import defaultdict
from svm import *
# Define our sparse data formatted training and testing sets.
labels = [1,2,3,4]
train = [ # key: 0=mean, 1=stddev
    {0:2.5,1:3.5},
    {0:5,1:1.2},
    {0:7,1:3.3},
    {0:10.3,1:0.3},
]
problem = svm_problem(labels, train)
test = [
    ({0:3, 1:3.11},1),
    ({0:7.3,1:3.1},3),
    ({0:7,1:3.3},3),
    ({0:9.8,1:0.5},4),
]

# Test classifiers.
kernels = [LINEAR, POLY, RBF]
kname = ['linear','polynomial','rbf']
correct = defaultdict(int)
for kn,kt in zip(kname,kernels):
    print kt
    param = svm_parameter(kernel_type = kt, C=10, probability = 1)
    model = svm_model(problem, param)
    for test_sample,correct_label in test:
        pred_label, pred_probability = model.predict_probability(test_sample)
        correct[kn] += pred_label == correct_label

# Show results.
print '-'*80
print 'Accuracy:'
for kn,correct_count in correct.iteritems():
    print '\t',kn, '%.6f (%i of %i)' % (correct_count/float(len(test)), correct_count, len(test))

域看起来相当简单。我希望如果它被训练知道 2.5 的平均值意味着标签 1，那么当它看到 2.4 的平均值时，它应该返回标签 1 作为最可能的分类。但是，每个内核的准确率为 0%。这是为什么？

一些旁注，有没有办法在终端中隐藏 libsvm 转储的所有冗长训练输出？我搜索了 libsvm 的文档和代码，但找不到任何方法来关闭它。

另外，我曾想在我的稀疏数据集中使用简单的字符串作为键(例如 {'mean':2.5,'stddev':3.5})。不幸的是，libsvm 只支持整数。我尝试使用字符串的长整数表示形式(例如 'mean' == 1109110110971110)，但 libsvm 似乎将它们截断为正常的 32 位整数。我看到的唯一解决方法是维护一个单独的“ key ”文件，将每个字符串映射到一个整数('mean'=0，'stddev'=1)。但显然这会很痛苦，因为我必须维护和保留第二个文件以及序列化分类器。有没有人看到更简单的方法？

最佳答案

问题似乎出在将多类预测与概率估计相结合。

如果您将代码配置为不进行概率估计，它实际上会起作用，例如:

<snip>
# Test classifiers.
kernels = [LINEAR, POLY, RBF]
kname = ['linear','polynomial','rbf']
correct = defaultdict(int)
for kn,kt in zip(kname,kernels):
  print kt
  param = svm_parameter(kernel_type = kt, C=10) # Here -> rm probability = 1
  model = svm_model(problem, param)
  for test_sample,correct_label in test:
      # Here -> change predict_probability to just predict
      pred_label = model.predict(test_sample)
      correct[kn] += pred_label == correct_label
</snip>

有了这个改变，我得到:

--------------------------------------------------------------------------------
Accuracy:
        polynomial 1.000000 (4 of 4)
        rbf 1.000000 (4 of 4)
        linear 1.000000 (4 of 4)

如果您将训练集中的数据加倍(即每个数据点包含两次)，则使用概率估计进行预测确实有效。但是，无论如何，我找不到对模型进行参数化，以便具有概率的多类预测仅适用于原始的四个训练点。

关于python - 使用 LibSVM 计算与 Mean/Stddev 对的最近匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2567483/

25

4

0

文章推荐： python - Django 可以用于非网络应用程序吗？

文章推荐： c# - 当表单的类变得太大时怎么办？

文章推荐： c# - 如何使用 OpenXML SDK 将 Excel 转换为 CSV？

mysql - 获取最近一小时、最近 2 小时.....最近 n 小时的记录
我需要获取过去 24 小时的记录，但不能像这样按小时分组: SELECT HOUR(CompDate) AS hour, COUNT(1) AS action FROM mytable WHERE (
最近/经常联系自动完成的算法？
我们有一个自动完成列表，当您向某人发送电子邮件时会填充该列表，这一切都很好，直到列表变得非常大，您需要输入越来越多的地址才能找到您想要的地址, 这违背了自动完成的目的我在想应该添加一些逻辑，以便自动
android - 我们如何禁用导航软按钮主页，最近
我在 android 的锁屏上工作我们如何禁用导航软按钮，已经尝试了所有方法，systemoverlay但它不起作用，在按下主页按钮时它会终止服务和 Activity 。最佳答案后退按钮可以通过覆
javascript - 最近 7 天
我有一个报告创建时间为 2016-05-30，现在我需要从报告时间开始的最后 7 天。我怎样才能使用时刻？ report_create_time = moment('2016-05-30').form
r - 如何在向量中找到三个最接近(最近)的值？
我想找出向量中最接近的三个数字。就像是 v = c(10,23,25,26,38,50) c = findClosest(v,3) c 23 25 26 我试过 sort(colSums(as.ma
sql - 带附加“最近”行的SQL查询
考虑以下表结构： id speed 1 100 2 200 3 300 4 400 5 500 考虑以下查询："SELECT * FROM records WHERE
iframe - Youtube 嵌入实时聊天不适用于移动设备(最近)
我正在开发一个依赖 YouTube 直播和实时聊天(也来自 YouTube)的网络应用。事情进展顺利，突然嵌入的聊天功能无法在移动设备上运行。我试图在我这边找到一个错误或一些无效的配置，但我找不到。
android - 在“最近”屏幕上更改应用程序的预览图像
我正在制作一个 React Native 应用程序，它有一个安全部分，用户必须在其中输入密码才能解锁 protected 内容。问题是，当用户在锁定该部分之前切换到另一个应用程序时，将生成屏幕截图以及
sql - 最近 3 个月的声明
我有一条 SQL 语句 (SQL Server Management Studio)，我通过仪表板软件将数据传递到 where 语句中。用户可以选择年份(2013 年或现在的 2014 年)和月份(作
javascript - Jquery:最近()行删除不起作用
我有一个脚本可以添加一组行，使您能够在 SharePoint 列表表单中捕获其他访问者的信息。我有两个 anchor 标记，一个用于添加，另一个用于删除。当我添加一个新的访问者时它有效，当我删除访问者
swift - 最近 Swift 更新中关于变异结构的变化？
我正在学习斯坦福 iOS 类(class)，我有一个问题，我认为与最近的更新有关。这是代码部分: func evaluate(ops: [Op]) -> (result: Double?,remain
单击主页按钮时不显示 Android 应用程序 [最近]
我注意到我的应用有一个奇怪的行为。每当我按下主页按钮时，我的应用程序就会被杀死。我没有在应用程序堆栈中看到该应用程序。我可以看到之前启动的其他应用程序。最初我怀疑 android:launchMode
MySQL 最近 7 天被忽略
我需要获取过去 7 天内的所有付费和临时条目，但我总是收到所有退回的内容。我不确定我做错了什么，我已经阅读了这里的很多帖子，但无法理解它是什么。 MySQL 5.6(如果它与我一直在做的事情有什么不同
php - 最近 15 分钟
我的表有一列以 mysql time() 格式格式化。当它是一个值分配给名为 $preRemainOt 的 php 变量时我想重新安排到最近的 15 分钟 function roundTime($w
mysql - 最近 7 天的最后时间戳
我想获取过去 7 天内每天每个产品的最后时间戳。数据库中有数千条记录。我怎样才能通过查询来做到这一点。大约有 25 种不同的产品，每种产品每天大约有 50 个时间戳。表:构建数据 'Timesta
php mysql 按日期排序(最近)
我现在的代码正在从 SQL 中获取移动应用程序中的数据，首先添加显示，我需要将其设置为在我的 Android 应用程序中显示最后添加的第一个。我有如下所示的 api 代码，最新的是根据我的要求显示的，
mysql - 从所有列中选择最后(最近)填充的值
我有一张 table ，说 table 的描述为: | ID | SNO | c1 | c2 | c3 | ___________________________________ |
arrays - 如何找到一个向量中最接近(最近)的值到另一个向量？
我有两个大小相等的向量，例如 A=[2.29 2.56 2.77 2.90 2.05] and B=[2.34 2.62 2.67 2.44 2.52]. 我有兴趣在两个相同大小的向量 A 和 B 中
windows - 最近，我正在进行一个需要驱动器原始读/写扇区的项目
之前，我在这里发布了一个问题，询问有关如何从驱动器读取和写入数据的建议，而不是通过像“aaa.txt”这样的文件标签，而只是扇区..我被建议尝试阅读和写作....但新问题出现了……毛茸茸的参数 int
mysql - 最近 n 个月未登录的用户
我想删除在给定时间段内未登录的用户，但我稍后会根据结果选择时间段。所以我需要报告，其中我将收到过去 1 个月、2 个月...... n 个月内未登录的用户数量。我不太清楚如何在单个 mysql 查

首页

博学

6Ren·AI

商城

python - 使用 LibSVM 计算与 Mean/Stddev 对的最近匹配