python - 为 sklearn 的 SVC 使用自定义 rbf 核函数比内置方法快得多-6ren

python - 为 sklearn 的 SVC 使用自定义 rbf 核函数比内置方法快得多

转载作者：行者123 更新时间：2023-12-04 13:24:10

27

4

在使用 时，我注意到一个相当奇特但可能非常有用的现象。 Scikit-Learn 的 SVC 执行。使用 内置 rbf 内核 与 SVC 是较慢通过数量级而不是通过 自定义 rbf 函数到 SVC() .
从我目前看到和理解的情况来看，这两个版本的唯一区别是 在内置 rbf 情况下，不是 sklearn 而是 libsvm 将计算内核 .将专用内核函数作为超参数传递给 SVC() 会导致在 sklearn 内部计算内核，而不是在 libsvm 中。结果相同，但 后一种情况只需要计算时间的一小部分 .
例子
我已经包含了一个示例，以便您可以复制此行为。
我创建了一个玩具数据集来模拟我目前正在处理的数据。顺便说一句，我还处理具有大约一千个样本但高维(约 50000 个特征)的数据。这会导致几乎相同的行为。

import numpy as np
from time import time
from sklearn.svm import SVC
from sklearn.datasets import make_classification
from sklearn.metrics.pairwise import rbf_kernel
from sklearn.metrics import accuracy_score

# create toy data
n_features = 1000
n_samples = 10000
n_informative = 10
X, y = make_classification(n_samples, n_features, n_informative=n_informative)
gamma = 1 / n_features

内置 RBF
首先，让我们使用内置的“rbf”内核来拟合 SVC。这可能是人们通常运行 SVC 的方式。

# fit SVC with built-in rbf kernel
svc_built_in = SVC(kernel='rbf', gamma=gamma)
np.random.seed(13)
t1 = time()
svc_built_in.fit(X, y)
acc = accuracy_score(y, svc_built_in.predict(X))
print("Fitting SVC with built-in kernel took {:.1f} seconds".format(time()-t1))
print("Accuracy: {}".format(acc))

自定义 RBF 函数
其次，让我们做同样的事情，只传递 sklearn 的 rbf 核函数，这应该完全一样。

# fit SVC with custom rbf kernel
svc_custom = SVC(kernel=rbf_kernel, gamma=gamma)
np.random.seed(13)
t1 = time()
svc_custom.fit(X, y)
acc = accuracy_score(y, svc_custom.predict(X))
print("Fitting SVC with a custom kernel took {:.1f} seconds".format(time()-t1))
print("Accuracy: {}".format(acc))

结果
这将给出以下结果。

Fitting SVC with built-in kernel took 58.6 seconds
Accuracy: 0.9846
Fitting SVC with a custom kernel took 3.2 seconds
Accuracy: 0.9846

我的问题

有没有人知道为什么传递内核函数比使用 libsvm 的内核计算快得多？

对于我的特定用例(通常是大数据集和长计算时间)，这实际上非常有用，因为我可以使用第二种方法运行更多超参数设置，因为计算时间显着减少。有什么理由不这样做吗？

最佳答案

我在 sklearn 错误报告 ( https://github.com/scikit-learn/scikit-learn/issues/21410 ) 上收到了对这个问题的一些很好的答案，所以我想我会在这里分享这些知识。
显然，sklearn(而不是 libsvm)中内核的计算是使用 numpy 完成的。然而，Numpy 会自动使用您机器上的所有可用线程来加速内核计算。当我在一台有 32 个线程的机器上运行这个分析时，我看到了显着的性能提升。不确定是否还有其他原因使 numpy 更快(更快或更智能的内存访问或类似的东西)，但我可以肯定地确认并行化正在发生。
因此，我对此的看法是，如果您在更大的数据集上运行 SVC 并且可以在您的机器上使用多个线程，那么将内核函数本身而不只是一个字符串说明符传递给 SVC 实例可能是值得的。所有标准内核函数都已在 metrics.pairwise 中的 sklearn 中实现( https://scikit-learn.org/stable/modules/metrics.html )。

关于python - 为 sklearn 的 SVC 使用自定义 rbf 核函数比内置方法快得多，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69680420/

27

4

0

文章推荐： javascript - jQuery Textillate 选项未创建预期结果

文章推荐： elasticsearch - 同一字段的 Elasticsearch 多个过滤器值

内置 "in"算子的Python源码
我试图在 (C) Python 源代码中找到内置 in 运算符的实现。我在内置函数源代码中搜索过，bltinmodule.c ，但找不到此运算符的实现。我在哪里可以找到这个实现？我的目标是通过扩展此
带重定向的 shell 内置
我们正在开发一个 shell(学校项目)。我们不理解一种行为。为什么内置函数在重定向时不起作用？喜欢 cd - | command 不改变目录。或 export NAME=VALUE | comm
.net - 内置.NET集合分类器的性能
有人问有关如何对列表进行排序的问题。从基本List.Sort()到List.OrderBy()有几种方法。最可笑的是自己动手的SelectionSort。我迅速将其否决，但这使我思考。应用于列表的
内置 qsort 函数中的比较函数
我正在尝试使用 C 中内置的 qsort 函数对结构进行排序 typedef struct abc{ long long int fir; long long int sec; }abc; 在
c# - 内置 CastOrDefault？
我觉得有一些内置的东西。如果对象为空，我想要默认值(或者特别是 0，我只使用十进制/整数)。是否有编写此函数的内置方法？ static int GetDecimalFromObject(object
Java 内置 XML
Java 是否有用于生成和解析文档的内置 XML 库？如果不是，我应该使用哪个第三方？最佳答案 Sun Java 运行时附带 Xerces 和 Xalan 实现，它们提供解析 XML(通过 DOM
带有生成器的 Python 内置 "all"
我对 python 的“all”和生成器有以下问题: G = (a for a in [0,1]) all(list(G)) # returns False - as I expected 但是:
c - 内置/内在测试
我有一些使用 gcc 内部函数的代码。我想包含代码以防缺少内在函数。我该怎么做？ #ifdef __builtin_ctzll 不起作用。最佳答案使用最新版本的 clang，现在可以使用 __ha
performance - (内置)Lua 函数的本地声明以减少开销
人们常说应该在本地重新声明(某些)Lua 函数，因为这样可以减少开销。但这背后的确切规则/原则是什么？我怎么知道哪些功能应该完成，哪些是多余的？还是应该为每个功能完成，甚至是您自己的功能？不幸的是，
python - 如何覆盖 "set"内置？
我想实现以下功能: TestClass values 接受任意数量的 NewClass 对象只有 NewClass 对象没有完全相同的属性值被添加到TestClass.values 我想出了这个:
sql - 内置 MAX 函数只返回一个整数
我正在尝试编写一个存储过程(使用 SQL Server Management Studio 2008 R2)以从表中检索最大测量值。这似乎是一件容易的事，所以我写了一个简短的存储过程来获取 MAX。但
electron - 内置 Electron 应用程序仅将json打印到屏幕上
我刚写了我的第一个Electron应用程序。现在，我正在尝试通过electron-packager构建它。我的package.json看起来像这样: { "name": "pixelcast",
wpf - 内置 WPF 字体列表
我正在寻找在 WPF 应用程序中使用的“安全”字体系列列表 - 应该安装在所有能够运行 WPF 的客户端机器上的字体系列。 Silverlight 有一个明确定义的列表( listed on MSDN
wpf - 内置 WPF IValueConverter
好吧，(在写了几次之后)发现System.Windows.Controls命名空间中已经有一个BooleanToVisibilityConverter，这真是一个惊喜。可能还有更多这样隐藏的节省时间
java - 内置 gradle 插件的版本号是多少？
在我的 gradle 构建文件中，我有以下插件 block plugins { `java-library` jacoco checkstyle } 这些都没有指定版本，但一切
json - 内置 Azure 策略定义
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 3 年前。 Improve this ques
javascript - 字符串反转内置 ES6
10 implementations String#reverse 已根据每个浏览器进行分析。自 2011 年以来已对这些实现进行了解释。当 ES6 出现时，有很多代码变得更加优雅和性能。关于
time - 内置@time 宏与基准模块中的宏之间的区别
在 Julia 包 BenchmarkTools 中，有一些像 @btime、@belapse 这样的宏对我来说似乎是多余的，因为 Julia 内置了@time、@elapse 宏。在我看来，这些宏服
c++ - LLVM如何检测和忽略库(内置)函数？
我正在尝试编写一个简单的 LLVM 通行证，其目标如下: 查找所有 call指示。在被调用函数中插入我编写的外部函数。例如，考虑我有以下示例程序: #include #include int
f# - 内置 f# 运算符来组合具有相同输入但不同输出的函数？
我理解 'a) -> (rhs:'a -> 'a) -> 'a 在我感兴趣的情况下，我经常发现自己想要类似 (lhs:'a -> 'b) -> (rhs:'c -> 'b) -> 'b 的东西在侧面

首页

博学

6Ren·AI

商城

python - 为 sklearn 的 SVC 使用自定义 rbf 核函数比内置方法快得多