- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我现在正在研究机器翻译,并且对一个更深入地探究句子表示内部的问题感兴趣。
假设我们从并行训练的Eng和Fr词向量开始,在并行语料库上训练编码器-解码器Seq2Seq En-Fr转换系统。系统可以使用任何形式来构成句子嵌入(变形金刚,LSTM等)。然后,Seq2Seq翻译系统的工作是学习从英语单词向量构建英语句子表示,从法语单词向量构建法语句子表示,并通过编码器和解码器的链接,在同一空间中学习这两个句子表示。
训练模型并用模型编码一些英语句子后(例如,“这不是管道”。),嵌入联合表示空间中的句子对单词“ this”,“ is”,“ not”有所了解','a','pipe'等及其所有关联以及它们出现的顺序。 (1)
当解码器在编码上运行时,由于在单词之间的训练和统计关联期间馈给它的语料负载,它能够取出上述信息,并相应地输出“ Ceci”,“ n”, ''',``est'',``pas'',``une'',``pipe'',``(EOS)''。在每个步骤中,它都会从解码器的隐藏状态中提取并输出下一个法语单词,并对其进行转换,以使解码器可以找到接下来要解码的启发式“最突出”单词,依此类推,直到“(EOS)”为止。 。
我的问题是:输出(EOS)之后是否对最后一个解码器隐藏状态有任何解释?还有其他用途吗?当然,一个简单的答案是“不,该模型经过训练可以捕获数百万行英语文本,并对其进行处理,直到某个单词与隐藏状态一起产生(EOS)且最后一个解码器隐藏状态就是这样,其他所有内容受到明确训练的只是噪音而不是信号”。
但是我想知道这还有什么吗?我要说的是,如果您有一个用英语生成的句子嵌入,并且通过解码器模型将其含义用法语转储掉了,那么是否还有剩余的含义无法从英语翻译成法语?当然,很难解释任何特定句子翻译的最后一个隐藏状态,但是总的来说怎么样(例如,每个要翻译的句子中包含“法国”字样的最后一个隐藏状态的某些汇总,这意味着英语有些不同,因为它可以与“薯条”等配对。这是一个愚蠢的例子,但您可能会想到其他利用文化歧义的人等在语言上出现。)统计上的“不确定性”或翻译上的歧义(可能是英语中可能出现的“含义”以及可能以法语结尾但没有的联想)或其他语言的结构性方面(可能有助于我们理解) ,例如,英语和法语有何不同?
您认为这是什么类别的答案?
“没有信号”,
“可能会有一些信号,但是
很难提取,因为它取决于如何
模型受过训练”
“有一个可以可靠提取的信号,
即使我们必须汇总数百万个示例”?
我不确定这个问题是否真的有道理,但我对答案感到好奇,是否对此方面进行了研究?我出于简单的好奇心问。
笔记:
我知道存在最后一个隐藏状态,因为它与最后一个单词一起生成(EOS)。那是它的目的,没有别的(?)使其特别。我想知道我们是否还能从中获得更多的含义(即使它意味着像对解码器或其他东西应用解码器步骤一样对其进行转换)。
(1)(当然,机器学习模型没有像人类那样丰富的“概念”思想,因为它与思想,经验和感觉的所有关联都对机器学习模型而言,“概念”仅与语言中看到的其他词相关联。用于单词向量训练的单语语料库和用于翻译训练的双语语料库。)
最佳答案
回答我自己的问题,但仍然对想法感兴趣。我很直觉,答案是“否”,因为在生成隐藏状态嵌入时仅考虑了两个属性:(1)距离法语中所有标记中的下一个输出标记的余弦距离“最接近”,并且( 2)在将解码器转换应用于下一个单词时,产生与下一个单词相对应的隐藏状态。要使最后一个隐藏状态具有不同于“它是300 d(或我们正在使用的任何尺寸嵌入)上的点,单位圆与法国(EOS)令牌的余弦距离相近”的解释,则意味着我们将应用(2)来吧。但是训练数据从来没有任何跟随(EOS)的示例,因此,如果将解码器转换应用于最后的隐藏状态,我们将不会学到什么,并且根据我们的模型初始化,它只是随机的。
如果我们想对英法联合嵌入空间的“匹配度”有多好的了解,我们应该寻找并比较各种翻译的测试损失,而不是寻找最后的隐藏状态。但是,如果有人有不同的看法,仍然会对人们对此事的想法感兴趣。
关于machine-learning - Seq2Seq/NLP/Translation:生成目标语句后,最后的解码器隐藏状态是否带有任何剩余含义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59897074/
我创建了一个基于命令行可移植脚本的工业化不可知构建系统,可用于快速构建多个依赖项目,而不必依赖特定的 IDE 或构建工厂。它是不可知的,因为它不是基于单个构建引擎。我使用 cmake 创建了第一个版本
我最初使用 Java 目标开发了一个语法(用于 TestRig 支持),然后将其移植到 Python(从 git hub 语法存储库扩展了 Python3 语法,因此需要将操作移植到 Python
我有一个以 iPhone 和 watchOS 为目标的 Xcode 项目。 iPhone 目标使用加速度计,模拟器不支持。我可以只启动 iPhone 应用程序而不启动 watch 目标吗?我从: Ca
您好,我想创建一个批处理文件,用于在 .eml 文件(目标 A)中查找某些关键字,然后删除它们所在的行。之后,我需要批处理文件将"new"文件放入(目标 B)中的单独 .eml 文件中。文件也可以是
当尝试通过 IntelliJ 运行示例 CorDapp (GitHub CorDapp) 时,我收到以下错误: Cannot inline bytecode built with JVM target
我在尝试向我的 kotlin spring 项目添加一些依赖项时遇到问题。我使用 spring boot 初始化程序来运行一个基本项目。 我的问题:如果我取消对 jackson 或 Koin 依赖项的
这是有问题的网站: http://www.onepixelroom.com/londonrefurb 当我点击关于部分后面的多个圆圈时,我希望它更改上面文本中的引号。 到目前为止,我得到它来显示 文本
单击后,我将删除两个元素 $(this) 和 $("#foo")。 目前我的代码如下所示: $(this).remove(); $("#foo").remove(); 如何在不重复自己的情况下优化它?
我有一个小脚本,可将 Markdown 文件编译为 html,并将其与一些样式表和 javascript 一起插入到模板的主体中。我有一个 GNU makefile 来完成这个: output.htm
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
一些背景知识: 在android中我们开发了同样的应用,基本上我们先开发了Android应用,现在我们创建了它的IOS版本,所以这个应用有多个客户端。在 android 中,我们实际上是使用 Andr
我想知道是否可以使用 knockout 来更改html中的目标() 我的所有其他信息都在 JavaScript 中,所以这对我来说是一个大问题。这是我的 JavaScript: var library
这个问题在这里已经有了答案: Selecting and manipulating CSS pseudo-elements such as ::before and ::after using j
我在我的有向图中添加了一堆节点和顶点,使用设置 typedef boost::adjacency_list graph; 创建 Node有一个节点名称字符串,Edge它的分数有一个整数。我试图遍历所有
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
如何存储我在 NSUserDefaults 中创建的 Goal 类型的对象数组? ( swift ) 代码如下: func saveGoalList ( newGoalList : [Goal] ){
Array.prototype.indexOf 和 Date.now 已在 ES5 中引入。如果我编译存储在文件 test.ts 中的以下代码,为什么 Typescript 不能转译? Date.no
我正在阅读有关属性的内容,并了解到可以使用您的代码将它们应用于不同的目标实体 -(请参阅 Attribute Targets)。 因此,查看我项目中的 AssemblyInfo.cs 文件,我可以看到
给定一个 Makefile: all: build/a build/b build/c # need to change this to all: build/* build/a:
我有一个带有多框架目标的项目- netstandard2.0;net471 . 我想为 netframework 构建解决方案和 netstandard分别。 目前我使用这个 MSBuild 命令:
我是一名优秀的程序员,十分优秀!