机器学习的数学基础--微积分

转载作者：撒哈拉更新时间：2024-08-18 10:58:09

57

4

微积分运算在机器学习领域扮演着至关重要的角色，它不仅是许多基础算法和模型的核心，还深刻影响着模型的优化、性能评估以及新算法的开发.

掌握微积分，不仅让我们多会一种计算方式，也有助于理解各种机器学习算法和模型是如何寻找最优参数的.

1. 为什么需要微积分？

也许有些人会觉得微积分很难，这大概是因为我们平时基本都是在计算固定的东西（用加减乘除就够了）。比如:

点外卖时计算价格和折扣；
去某个地方时根据距离和交通工具计算需要的时间；
以及摆放东西时对面积和体积的估算等等。

而对于不断变化的事物，我们发现用传统的计算方式很难精确的描述，比如:

计算汽车在一段时间内的行驶距离。实际情况下的汽车速度是不断变化的（而且是无规律的变化，跟路况，载重等多种因素有关），此时如何计算距离和速度的关系。
预测人口的增长。人口增长是一个连续变化的过程，受出生率、死亡率、迁移率等多种因素的影响，根据以往的人口增长数据，预测未来某个时间点人口的数量。
股票交易买卖时机的分析。根据以往的股价变化，预测将来在哪些价格点上更容易上涨或下跌。

微积分本质上就是一种运算方式（类似加减乘除，指数，对数等等运算），与其他运算方式相比，它的优势在于可以精确的描述事物的变化.

2. 微分

微积分其实包括微分和积分两种运算，它们互为逆运算，就像加法与减法，乘法与除法.

微分研究函数在某一点附近的变化率，而积分研究函数在某一区间上的累积效应。平时我使用较多的是微分，也被称为求导数.

2.1. 什么是微分

微积分的诞生还有一段“斗争”，当年，牛顿和莱布尼茨都宣称自己先发明了微积分，虽然最终牛顿胜出，但二位都是非常伟大的科学家。由此也可见当时欧洲的科技已经发展到相当的程度，才会在科研中迫切的需要微积分这种新的运算方式.

下面通过一个速度与时间关系的示例来看看最终微积分如何帮助我们精确计算变化的。首先，对于两个匀速运动的物体，。

时间($t$)	速度($v_1$)	速度($v_2$)
0	5	8
1	5	8
3	5	8
5	5	8
10	5	8

匀速的情况下，速度不变，一眼就能看出谁快谁慢，并不需要微积分.

接下来，看看匀变速的情况:

时间($t$)	速度($v_1$)	速度($v_2$)
0	0	0
1	2	3
3	6	9
5	10	15
10	20	30

其中$v_1=2t$，$v_2=3t$。在这种情况下，我们依然可以看出两个物体谁快谁慢，也可以计算出它们的加速度分别为2和3，不需要微积分.

最后，看看非匀变速的情况，这也是最接近实际的情况。如果你有实际驾驶的经验就能理解，行驶过程中几乎不可能保持匀速或匀变速，影响车速的因素各种各样，你能控制的油门仅仅是其中之一。模拟两个非匀变速的情况:

时间($t$)	速度($v_1$)	速度($v_2$)
0	0	0
1	10	1
3	90	27
5	250	125

其中$v_1=10t^2$，$v_2=t^3$。这下，没那么容易看出哪个速度增加的快了吧？这两个物体在某一时刻的加速度也不是那么容易计算了吧？从图中虽然可以看出，10秒之前，$v_1$比$v_2$快，10秒之后，$v_2$比$v_1$快。但是$v_1$和$v_2$哪个增长的快？即使从上面的图中也不是那么容易看出。这时，通过微积分就能看出谁变化的快了。微分的计算规则下一节介绍，这里先看下微分的结果：$v_1^{'} = 20t$；$v_2^{'}=3t^2$。对速度微分的结果就是速度变化的情况：微分之后，就能精确的看出2个速度的变化情况:

紫色交点之前，$v_1$增加的比$v_2$快
紫色交点之后，$v_2$增加的比$v_1$快

2.2. 计算规则

从上例可以看出，对于复杂的变化情况（非均匀变化），通过微分可以快速找出变化的规律，从而可以精确的计算每个时间点的实际数值.

微分的计算虽然没有加减乘除那么直观，但是也不复杂。对于多项式，微分的规律如下：其中$a$是常数；$n$是变量$x$的指数.

其他特殊的函数（比如三角函数，对数函数等等）可以参考维基百科的微分表： https://en.wikipedia.org/wiki/Differentiation_rules 。

2.3. 链式法则

微分运算法则中，有一个很有用的特性，称为链式法则。当需要计算嵌套函数的微分时，这个法则非常有用，比如：一种方式是将$y$的多项式代入$f$函数中:

另一种方式就是链式法则，函数$f$对$x$求导，可以转换为$f$对$y$求导与$y$对$x$求导的积。由此可得:

两种方式的计算结果是一样的，不过，如果函数$f$和$y$都非常复杂的话，运用链式法则，可以极大的简化微分运算.

3. 偏微分

在机器学习的算法中，公式中不可能只有一个变量$f(x)$，基本都是多个变量$f(x_0,x_1,...,x_n)$的情况。在这种情况下，怎么计算函数$f$中各个变量的变化趋势呢?

这就用到了偏微分（也称为偏导数），也就是函数$f$对其中一个变量求导数.

3.1. 计算规则

了解了微分的计算方法，那么偏微分的计算就很简单了。比如一个含有两个变量的函数：那么，对$x_0$和 $x_1$分别求导数的结果如下：简单来说，对$x_0$求导数时，把$x_1$当成常数看待；对$x_1$求导数时，把$x_0$当成常数看待.

通过偏微分计算，我们就能发现哪个变量变化时对函数$f$的结果影响最大。对应的场景就是机器模型（$f$）中，哪个属性（$x_0, x_1$）对模型的结果影响最大.

3.2. 偏微分的图形意义

对于偏微分，也可以从图像上来看，不过超过3个维度的图像无法绘制，所以只能绘制带有2个参数的函数。绘制上面示例中函数：$f(x_0,x_1)=x_0^{2}+2x_0x_1+3$ 。

然后分别对$x_0,x_1$求偏微分，对$x_0$的偏微分为：$f^{'}(x_0)=2x_0+2x_1$ $x_1$取不同的值时，偏微分的图像为：从图中可以看出，偏微分$f^{'}(x_0)$的变化率是线性增长的，$x_1$只是影响它的起始值。如果把$f(x_0,x_1)=x_0^{2}+2x_0x_1+3$看成一个机器学习模型，那么随着属性$x_0$的增大，$x_0$对模型的影响越来越大.

对$x_1$的偏微分为：$f^{'}(x_1)=2x_0$，$x_0$取不同的值时，偏微分的图像为：从图中可以看出，偏微分$f^{'}(x_1)$的变化率是固定的，$x_0$决定它的变化率是多少。如果把$f(x_0,x_1)=x_0^{2}+2x_0x_1+3$看成一个机器学习模型，那么随着属性$x_1$对模型影响的大小是稳定的，影响多大取决于$x_0$的取值.

4. 总结

我平时接触的机器学习算法中，微分使用的比较多，所以这里只介绍了微分的相关运算，积分是微分的逆运算，这里不再赘述。对于复杂函数的积分，也有积分表可以查询（https://en.wikipedia.org/wiki/Lists_of_integrals）.

最后，总结下在哪些机器学习算法中会遇到微积分的运算.

梯度下降算法：用于寻找函数的局部最小值。它通过计算损失函数关于模型参数的梯度（即偏导数），并沿着梯度的反方向更新参数。
反向传播算法：基于链式法则，从输出层到输入层逐层计算梯度，从而更新网络中的权重和偏置。
损失函数的设计：均方误差损失函数和交叉熵损失函数都是可导的，并且它们的梯度可以很容易地通过微积分计算出来。
正则化技术：为了防止模型过拟合，常常使用正则化项通过惩罚模型的复杂度来减少过拟合的风险。此时，正则化项的设计依赖于微积分，因为需要计算它们关于模型参数的梯度，以便在优化过程中考虑它们的影响。
概率模型与贝叶斯方法：在机器学习的概率模型中，微积分被用于计算概率分布、条件概率、边缘概率以及期望等。
特征选择与降维：在特征选择和降维技术中，如主成分分析（PCA）和线性判别分析（LDA），微积分被用于计算数据的协方差矩阵、特征值、特征向量等，从而帮助识别出最重要的特征或降低数据的维度。
其他。。。

最后此篇关于机器学习的数学基础--微积分的文章就讲到这里了,如果你想了解更多关于机器学习的数学基础--微积分的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

57

4

0

文章推荐： FFmpeg开发笔记（四十八）从0开始搭建直播系统的开源软件架构

文章推荐： .NET中各种线程同步锁

文章推荐： C#模拟键盘输入、键状态和监听键盘消息

【数学】主成分分析（PCA）的详细深度推导过程
Based on Deep Learning (2017, MIT) book. 本文基于Deep Learning (2017, MIT)，推导过程补全了所涉及的知识及书中推导过程中跳跃和省
数学:5个具有唯一和的数字
因此，我需要一种方法来弄清楚如何获得5个数字，并且当您将它们中的任意两个相加时，将得出一个总和，您只能通过将这两个特定的数字相加而得到。这是我正在谈论的示例，但有3个数字: 1个 3 5 1 + 3
数学、编程和学习
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
数学 - 映射数字
如何将 a 和 b 之间的数字线性映射到 c 和 d 之间。也就是说，我希望 2 到 6 之间的数字映射到 10 到 20 之间的数字...但我需要广义的情况。我的脑子快炸了。最佳答案如果您的
JavaScript 数学
嘿，我有一个方程式，我需要弄清楚它是基于图表的数学，其中图表上有两个点，需要获取其余值: 我正在构建一个 javascript 页面，它获取图表上的两个点，但需要吐出图表上的任何位置。它用于根据了解
数学:doxygen 中的场
有谁知道如何用 Doxygen 得到实复场或射影平面的符号，i.o.w 符号，如 IR、IC、IP 等？例如，我尝试了\f$\field{R}\f$，但无法识别。非常感谢您的帮助，G. 最佳答案
math - 数学/物理负责人的最近方法问题
我正在使用 Segment to Segment 最接近方法，该方法将输出两个长度段之间的最近距离。每个段对应一个球体对象的起点和终点。速度只是从一个点到另一个点。即使没有真正的碰撞，最近的方法也可
c - 当以任意顺序给出三个音符时如何解析和弦。数学
我有一个 arduino 连接到 Stradella 系统钢琴 Accordion 。我在左手和弦的 12 个音符中的每一个上都有光学传感器。当我弹奏和弦时，它会触发三个传感器。如果我想让合成器演奏和
libraries - 如何在新包中使用现有库中的现有函数(数学)？
我正在开发一个具有一些简单功能的新包。现在我可以使用已经存在的“math-vectors”库中的函数；特别是“插值”和“反转”。如何在我的新包中使用这些？编写 y:=reverse(...) 显然是不
jquery - 数学 - 除法并留余数
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Integer division in JavaScript 希望这是一个简单的问题，基本上我需要这样做: 分隔线
具有动态字段的 JavaScript 数学
我有一张表格，上面有学校类(class)。此表单上可以有任意数量的类，每个类有 2 个字段。书本费和学费。我有一个名为总计的第三个字段，当他们在其他字段中输入成本时，我想更新该字段。这就是我的设置
javascript - 数学:将一个数字缩放为另一个数字的公式
今天早些时候我问了一个类似的问题，结果发现我只是数学很烂，因为我也无法解决这个问题。我通过宽度/高度计算屏幕比例。我需要一个函数来将结果数字转换为新的比例。例如 function convertN
JavaScript 数学，循环内循环
我有一个起始数字，因此必须仅在开始循环时将该数字乘以一个因子，然后将结果乘以另一个因子的 X 倍，然后必须将循环乘以 Y 次，最后我需要总金额...我认为最好查看数字来了解我需要什么例如，如果我从数
java - 数学、坐标
现在我用 JAVA 遇到了一些问题，但不记得如何获取坐标系之间的长度。例如。A 点 (3,7)B点(7,59) 我想知道如何计算a点和b点之间的距离。非常感谢您的回答。 :-) 最佳答案 A = (
jquery - 数学:将文本输入的总数相加并查找百分比
我有两种类型的文本输入，积极的和可疑的。在将输入到这两种类型的输入中的所有数字相加后，我需要显示多组这些输入的总数。例如:2 个阳性 + 2 个可疑 = 总计:4 然后，我需要从总数中找出积极与可疑的
函数内的 Jquery 数学
我正在尝试将输入金额乘以 3.5%，任何人都可以给我任何想法如何做到这一点吗？ $("#invest_amount").keyup(function() { $('#fee').va
c# - 数学，最大数
有谁知道返回a的最大数的Math方法给定的位数。例如，使用1位数字的最大数字是9，2是99，3是999，4是9999......等等。使用字符串很容易实现，但这并不完全我在找什么。 pri
javascript - KnockoutJS 数学
我是 Knockout 的新手，但仍对它一头雾水，我想知道如何使用两个 KO 变量进行简单的数学运算(加法和乘法)。此刻我有: self.popInc1 = ko.observable('0.3')
javascript - 四舍五入数字javascript - 数学
我在谷歌地图应用程序中有以下内容，并希望显示转换为英尺的海拔高度，但如何向上/向下舍入到最接近的数字？ (消除小数点后的数字)我尝试了 number.toFixed(x) 方法，但似乎什么也没做。 f
JavaScript Vector2d 数学
我最近开始使用 JavaScript 编写小型 Canvas 游戏，并试图全神贯注于 Vector 2d 数学。我了解 Vectors 的基础知识(比如它们代表 2d 空间中具有方向的点，您可以对它们

时间(\(t\))	速度(\(v_1\))	速度(\(v_2\))
0	5	8
1	5	8
3	5	8
5	5	8
10	5	8

首页

博学

6Ren·AI

商城