- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
以下是我对 RNN 中参数共享要点的理解:
在常规前馈神经网络中,每个输入单元都分配有一个单独的参数,这意味着输入单元(特征)的数量对应于要学习的参数的数量。在加工中,例如图像数据,输入单元的数量在所有训练示例中都是相同的(通常是恒定的像素大小 * 像素大小 * RGB 帧)。
但是,像句子这样的顺序输入数据的长度可能变化很大,这意味着参数的数量将根据处理的例句而不同。这就是为什么参数共享对于有效处理序列数据是必要的:它确保模型始终具有相同的输入大小,无论序列长度如何,因为它是根据从一种状态到另一种状态的转换来指定的。因此,可以在每个时间步使用具有相同权重(输入到隐藏权重、隐藏到输出权重、隐藏到隐藏权重)的相同转换函数。最大的优点是它可以泛化到训练集中未出现的序列长度。
我的问题是:
最佳答案
能够有效地处理不同长度的序列并不是参数共享的唯一优势。正如你所说,你可以通过填充来实现这一点。参数共享的主要目的是减少模型必须学习的参数。这就是使用 RNN 的全部目的。
如果您为每个时间步学习不同的网络并将第一个模型的输出提供给第二个模型等,您最终将得到一个常规的前馈网络。对于 20 个时间步长,您将需要学习 20 个模型。在卷积网络中,参数由卷积滤波器共享,因为我们可以假设图片的不同区域存在相似的有趣模式(例如简单的边缘)。这大大减少了我们必须学习的参数数量。类似地,在序列学习中,我们通常可以假设在不同的时间步长有相似的模式。比较“昨天我吃了一个苹果”
和 “我昨天吃了一个苹果”
。这两个句子的意思相同,但是“I ate an apple”
部分发生在不同的时间步上。通过共享参数,您只需了解该部分的含义一次即可。否则,您必须为模型中可能出现的每个时间步骤学习它。
共享参数有一个缺点。因为我们的模型在每个时间步对输入应用相同的转换,所以它现在必须学习对所有时间步都有意义的转换。因此,它必须记住,哪个单词出现在哪个时间步,即“巧克力牛奶”不应导致与“牛奶巧克力”相同的隐藏和内存状态。但与使用大型前馈网络相比,这个缺点很小。
对于序列的填充:主要目的不是直接让模型预测不同长度的序列。正如您所说,这可以通过使用参数共享来完成。填充用于高效训练 - 特别是为了在训练期间保持较低的计算图。如果没有填充,我们有两种训练选择:
这就是我们需要填充的原因。我们将所有序列填充到相同的长度,然后在开始训练之前只需要构建一个计算图。当您的序列长度非常短和非常长(例如 5 和 100)时,您可以使用 bucketing and padding 。这意味着,您将序列填充到不同的存储桶长度,例如 [5, 20, 50, 100]。然后,您为每个存储桶创建一个计算图。这样做的好处是,您不必填充长度为 5 到 100 的序列,因为您会浪费大量时间来“学习”其中的 95 个填充标记。
关于deep-learning - 循环神经网络 : what's the point of parameter sharing? 填充是否能解决问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47865034/
目前我正在尝试创建一个 Web 部署包。所以我在我的项目的根目录中添加了一个 parameters.xml 并指定了一些自定义参数。 我发现我的很多参数都部分相同。所以我想做某种参数引用。寻找这个,我
如何设置我的 Symfony 2 项目以使用 parameters.yml 而不是 parameters.ini? 在 Controller 中,我可以像这样从 parameters.ini 中获取变
有什么建议说明为什么此 AWS CloudFormation 不断回滚吗? { "Description" : "Single Instance", "Resources" : {
PARAMETERS: p_1 TYPE i, p_2 TYPE i. 因此在初始屏幕中,我看到了 2 个文本框,每个参数一个。 如果我填写其中一个,但不按回车键,然后我在第二个上调用 F4 帮助,我
我需要存储 Parameter由 Build() 返回作为 Parameter (因为我将参数存储在一个数组中,另一种方法就是为每个参数数量复制粘贴相同的类太多,因为 c# 没有可变参数泛型)。 问题
我正在为我的 CS 类(class)做作业,它使用了 const,我对何时使用它们感到有点困惑。 这3个函数有什么区别? int const function(parameters) int fu
在 xgboost 的文档中,我读到: base_score [default=0.5] : the initial prediction score of all instances, global
我正在创建一个新的 REST 服务。 向 REST 服务传递参数的标准是什么。在 Java 的不同 REST 实现中,您可以将参数配置为路径的一部分或请求参数。例如, 路径参数 http://www.
在我的程序中,我需要验证传递给程序的参数是一个整数,所以我创建了这个小函数来处理用户键入“1st”而不是“1”的情况。 问题是它根本不起作用。我尝试调试,我只能告诉你参数是 12,long 是 2。(
谁能告诉我如何使用存储在 &rest 指定值中的参数。 我已经阅读了很多,似乎作者只知道如何列出所有参数。 (defun test (a &rest b) b) 这很高兴看到,但并不是很有用。 到目前
我使用 git 有一段时间了,但大多数时候我更喜欢与 Intelij IDEA 的集成。现在,为了扩展我对系统的知识和理解,我决定更多地使用命令行。我观察到的是有两种类型的参数: --paramete
我正在用 RAML 编写一些 REST 文档,但我被卡住了。 我的问题: - 我有一个用于搜索的 GET 请求,它可以采用参数“id”或( 独占或 )“引用”。拥有 只有其中之一 是必须的。 我知道怎
我定义了一个这样的 Action : /secure/listaAnnunci.action /login.jsp 我可以从 Action 内部访问参数吗?谢谢 最佳答案 您需要实现 S
我有一个 TeamCity 8.0.3 项目,其中包含多个配置,其中有一个通用参数(定义为项目参数):targetServerIP .这些配置之一是“一键部署”,它通过使用快照依赖项启动其他配置。我已
try{ Class.forName("com.mysql.jdbc.Driver"); mycon = DriverManager.getConnec
我在实际的 javascript 项目中遇到了一个非常奇怪的情况。我创建了一个自定义事件并将数组放入该事件 $.publish("merilon/TablesLoaded", getTables())
在使用参数数组进行插入/更新期间,可以忽略一个/一些特定行的一个/一些参数。 我提供了一个简单的例子。想象一下,我们有一个包含 3 列的表:X、Y 和 Z。我们想在 block 中执行更新(如果缺少某
如何编写接受未定义参数的函数?我想它可以像那样工作: void foo(void undefined_param) { if(typeof(undefined_param) == int) {
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章PDO版本问题 Invalid parameter number: no
Jenkins 管道作业如下所示: 部分 Jenkinsfile(我们使用脚本化管道)是: properties([parameters([string(defaultValue: "", descr
我是一名优秀的程序员,十分优秀!