- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要帮助了解神经网络的内存要求以及它们在训练和评估过程之间的差异。更具体地说,训练过程的内存要求(我使用的是运行在 TensorFlow 之上的 Keras API)。
对于包含 N 个权重的 CNN,当使用大小为 x 的批处理时,权重本身和输入数据需要恒定的内存量。在正向传递期间,GPU 需要额外的 x*N 内存单元(具体所需数量对问题而言并不重要)以同时传递所有样本并计算每个神经元的激活。
我的问题是关于反向传播过程,似乎该过程需要额外的 x*N 单元内存 (*) 用于每个样本的每个权重的特定梯度。根据我的理解,这意味着算法计算每个样本的特定梯度,然后将它们相加以反向传播到上一层。
问。既然每批只有一个更新步骤,为什么不对每个神经元的平均激活执行梯度计算?这样,训练所需的额外内存将仅为 (x+1)*N 而不是 2*x*N。
(*) 这是根据我自己在评估 (~4200) 和训练 (~1200) 期间允许的最大批量大小的小实验得出的。显然,这是一种非常简化的查看内存需求的方式
最佳答案
简短的回答是:这正是小批量 SGD 反向传播算法的工作方式。回顾它的起源和使用标准 SGD 和小批量 SGD 的区别,原因就更清楚了。
标准随机梯度下降算法通过模型传递单个样本,然后反向传播其梯度并更新模型权重,然后再对下一个样本重复该过程。主要的缺点是它是一个串行过程(不能同时运行样本,因为每个样本都需要在一个已经被前一个样本更新过的模型上运行),所以它的计算成本非常高。此外,每次更新仅使用一个样本会导致非常嘈杂的梯度。
mini-batch SGD 使用相同的原理,但有一个区别 - 梯度是从多个样本中累积的,并且每 x 个样本仅执行一次更新。这有助于在训练期间获得平滑的梯度,并使多个样本能够并行地通过模型。这是在使用 keras/tensorflow 进行小批量训练时使用的算法(通常称为批处理,但该术语实际上意味着使用 batch gradient decent,这是一种略有不同的算法)。
我还没有找到任何关于使用每层梯度的平均值进行更新的工作。检查这种算法的结果很有趣。它的内存效率更高,但它也可能无法达到良好的最低点。
关于tensorflow - 反向传播的内存要求——为什么不使用均值激活?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53278677/
我能否获得一个具有两个参数的递归Prolog谓词,称为反向,它返回列表的反向: 示例查询和预期结果: α-反向([a,b,c],L)。 L = [c,b,a]。 由两个称为palindrome的参数组
在使用 get_dummies() 将分类数据转换为数字数据后,我的数据框看起来像这样 score1 score2 country_CN country _AU category_leader ca
我有一张 table ,上面有一个国家/地区列表。说这些国家之一是“马其顿” 如果搜索“马其顿共和国”,什么 SQL 查询会返回“马其顿”记录? 我相信在 linq 中它会是这样的 var count
我们有一个角色继承结构,它假设每个人都默认获得最低级别的角色,而不是最高级别的过滤,如下图所示: role.Everyone //lowest level; everyone gets this ro
我正在使用 $.each() 解析数组,但在其中,我使用 .splice() 方法,因此我需要向后迭代。这可能吗? var store = [...]; //... var rules = [...]
我有一个 SPLObjectStorage 对象,其中 Player 对象作为键,分数作为与之关联的信息。玩家对象按照从最高分到最低分的顺序添加到存储中,但我现在需要以相反的顺序遍历它们。 我还需要能
我无法理解这一点:如果我给 Prolog reverse([], A). 它工作得很好,如果我给它 reverse(A, [] ). 并根据第一个建议回答 ; 它挂起!为什么? (GNU Prolog
我有一个 SPLObjectStorage 对象,其中 Player 对象作为键,分数作为与之关联的信息。玩家对象按照从最高分到最低分的顺序添加到存储中,但我现在需要以相反的顺序遍历它们。 我还需要能
我有一个HashMap看起来像: HashMap playerHashMap = new HashMap<>(); 玩家是包含姓名、号码、年龄等的对象。 现在我已经对它进行了排序,它看起来像这样: k
我有这个: file://localhost/Volumes/Untitled%20RAID%20Set%201/Callum/iTunes/Music/Steppenwolf/Steppenwolf
我正在使用 std::regex 并希望找到与某个用户定义的正则表达式字符串匹配的字符串中的最后一个位置。 例如,给定正则表达式 :.* 和字符串“test:55:last”,我想找到“:last”,
有一个表 ServErog(服务),它被重新引导到 4 个表 ServA、ServB、ServC、ServD(它们是不同的非统一服务),其中包含 servtype(服务类型)和 type_id(来自其
这个问题在这里已经有了答案: What is the best way to convert date from JavaScript string in format YYYYMMDD to Ja
我知道如何获得包含几个词的所有结果: SELECT * FROM `table` WHERE MATCH (`row`) AGAINST ('+word1 +word2' IN BOOLEAN MOD
你好,我有这个 html 代码: .container{ width: 450; height: 400; border:1px solid
我想知道是否有任何方法可以使用相同的 CSS 过渡实例来将其向前移动然后向后/向后移动。例如,假设我有这种转变: @-webkit-keyframes fade-transition { fr
假设我有这些字符串: char ref[30] = "1234567891234567891"; char oth[30] = "1234567891234567891"; 我想在 C++ 中使用 S
所以我有这段代码,它使 xcode 崩溃 void strrev(const std::string& str) { for(size_t i=str.length();i>=0;i--)
我正在使用下面的代码使每张图片 1 对 1 淡入淡出。我怎样才能反向执行此操作以使图片以相反的顺序加载? img {display:none;} $('img').each(function(
我正在尝试弄清楚如何改变 FrameLayout 堆叠其子项的方式。 目前它是最新的(先进先出)。我想更改它,使最新的 child 位于底部(FILO)。我试着查看 FrameLayout 的源代码,
我是一名优秀的程序员,十分优秀!