nlp - 为什么我们在 HuggingFace BART 的生成过程中需要一个 decoder_start_token

nlp - 为什么我们在 HuggingFace BART 的生成过程中需要一个 decoder_start_token_id？

转载作者：行者123 更新时间：2023-12-04 17:23:29

48

4

在 HuggingFace 代码的生成阶段: https://github.com/huggingface/transformers/blob/master/src/transformers/generation_utils.py#L88-L100

他们传入一个 decoder_start_token_id ，我不确定他们为什么需要这个。在 BART 配置中，decoder_start_token_id实际上是 2 ( https://huggingface.co/facebook/bart-base/blob/main/config.json )，这是句子标记 </s> 的结尾.

我尝试了一个简单的例子:

from transformers import *

import torch
model = BartForConditionalGeneration.from_pretrained('facebook/bart-base')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-base')
input_ids = torch.LongTensor([[0, 894, 213, 7, 334, 479, 2]])
res = model.generate(input_ids, num_beams=1, max_length=100)

print(res)

preds = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=True).strip() for g in res]
print(preds)

我得到的结果:

tensor([[  2,   0, 894, 213,   7, 334, 479,   2]])
['He go to school.']

虽然不影响最终的“tokenization decoding”结果。但对我来说，我们生成的第一个标记实际上是 2 似乎很奇怪。 (</s>)。

最佳答案

您可以在代码中看到 encoder-decoder models解码器的输入标记从原始标记右移(参见函数 shift_tokens_right)。这意味着要猜测的第一个标记始终是 BOS(句子开头)。您可以检查示例中是否属于这种情况。

为了让解码器理解这一点，我们必须选择一个始终跟在 BOS 后面的第一个标记，那么它可能是哪个？老板？显然不是，因为它后面必须跟着常规标记。填充 token ？也不是一个好的选择，因为它后面跟着另一个填充标记或 EOS(句子结尾)。那么，EOS 呢？好吧，这是有道理的，因为它从来没有跟在训练集中的任何东西后面，所以没有下一个标记会发生冲突。此外，句子的开头跟在另一个句子的结尾不是很自然吗？

关于nlp - 为什么我们在 HuggingFace BART 的生成过程中需要一个 decoder_start_token_id？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64904840/

48

4

0

文章推荐： php - Nginx fastcgi 始终在响应中包含请求正文

文章推荐： amazon-cloudwatch - AWS Cloudwatch Insights - 将字符串解析为 JSON

文章推荐： reactjs - react 路由器不工作。 react JS

文章推荐： swift - 在 Vapor 中使用临时文件响应请求的正确方法

fortran - 在 PURE 过程 Fortran 中调用类型绑定(bind)过程
如果我声明了类似的类型 type test(NSIZE) integer, len :: NSIZE real :: dummy(NSIZE) contains procedure,
vba - 从 Excel 应用程序隐藏 VBA 过程，但不从其他项目隐藏 VBA 过程
我知道这是一个不太可能的事情，但是由于“选项私有(private)模块”的限制，甚至更糟糕的“私有(private)子/函数”的限制，有谁知道是否有一种方法可以从 Excel 应用程序隐藏 VBA 过
SQL 过程 - 根据其他表的计数更改表列的值
我有两个表，property 和 component。 component.id_property = property.id。我正在尝试创建一个过程，该过程对所选属性的组件进行计数，如果所选属性没
在一行中返回结果的 SQL 过程
我有一份报告，它是在 SSRS 2005 中开发的，我正在使用存储过程从数据库中获取结果。报告输出的结果非常简单，如下图所示。如果假设我正在寻找不同的成员例如:- MemberID c108 c
delphi - 衰落值常规功能/过程
我需要一个通用函数/过程，该函数/过程将根据提供的数据计算出我的淡入淡出时间和值，如下所示：我将字节值保存在字节数组中：这些是起始值。然后，我在其他数组中存储了一些值：这些将是新值。然后我有时间要提
java - 如何在java中为多个按钮设置相同的操作/过程
我想在界面的多个按钮上创建相同的操作。是否只能通过创建单独的操作监听器方法并调用执行操作的方法才可行，还是还有其他方法？是否可以将按钮放在一个组中并执行以下操作:- groupButton.setOn
delphi - 跳转到finally而不退出函数/过程
我有以下情况: procedure Test; begin repeat TryAgain := FALSE; try // Code // Code if this an
Oracle 向一个对象类型添加一个新的成员函数/过程
我正在尝试执行以下操作；假设我在 Oracle 中创建了一个对象类型 create type test as object( name varchar2(12), member procedure p
VHDL - 适用于任何类型数组的函数/过程
问题: 如果可能的话，如何声明一个用于任何类型参数的函数 T其中 T 的唯一约束是它被定义为 1D array如 type T is array ( integer range <> ) of a_r
包含一整年的天数和小时数的 Mysql 过程
我正在尝试创建这个 mysql 过程来制作一个包含今年所有日期和所有时间的表(以一小时为间隔。) CREATE TABLE FECHAS ( created_at datetime ); CREA
带有预选光标数据的 MySQL 过程
所以，我在这里面临一个问题，这让我发疯，我认为这是一个愚蠢的错误，所以我不是 MySQL 的新手，但它并不像我想象的那样工作。尝试将此语句部署到 MySQL 后，我收到此错误: ERROR 106
带参数语法的 MySQL 过程
我有一个架构，其中包含星球大战中的人物列表、他们出现的电影、他们访问的行星等。这是架构: CREATE DATABASE IF NOT EXISTS `starwarsFINAL` /*!40100
具有多个计数和分组依据的 MySql 过程
我一直在为一家慈善机构创建一款应用程序，允许家庭在节日期间注册接收礼物。数据库组织有多个表。下面列出了这些表(及其架构/创建语句): CREATE TABLE IF NOT EXISTS ValidD
mysql - 按日期删除表而不删除系统表的函数/过程
正如上面标题所解释的，我正在尝试编写一个sql函数来按日期删除表而不删除系统表。我在此消息下方放置了一张图片，以便直观地解释我的问题。任何帮助将不胜感激!感谢您的时间! 最佳答案您可以通过查询INF
使用游标的 mysql 过程
DELIMITER $$ CREATE PROCEDURE INSERT_NONE_HISTORY_CHECKBOX() BEGIN DECLARE note_id bigint(20); F
postgresql 过程/触发器
是否可以编写一个存储过程或触发器，在特定时间在数据库内部自动执行，而无需来自应用程序的任何调用？如果是，那么任何人都可以给我一个例子或链接到一些我可以阅读如何做到这一点的资源。最佳答案查看 pgA
mysql 过程 - 在第二个查询中使用结果并重新格式化日期
我需要创建一个过程:1)从表中的字段中选择一些文本并将其存储在变量中2) 更新相同的记录字段，仅添加 yyyymmdd 格式的日期以及过程中的附加文本输入...类似这样的... delimiter /
MySQL 过程 - 如果不存在则插入行
好的，这就是我想做的: 如果条目已存在(例如基于字段name)，则只需返回其id 如果没有，请添加这是我迄今为止所管理的(对于“如果不存在，则创建它”部分): INSERT INTO `object
MySQL 过程 - 开始工作
以下是我编写的程序，用于找出每位客户每天购买的前 10 件商品。这是我尝试过的第一个 PL/SQL 操作。它没有达到我预期的效果。我使用的逻辑是接受开始日期、结束日期以及我对每个客户感兴趣的前“x
mysql - 列不能为空 - 过程
我正在尝试在MySQL中创建一个过程那insert week s(当年)发送至我的 week table 。但存在一个问题，因为在为下一行添加第一行后，我收到错误: number column can

首页

博学

6Ren·AI

商城

nlp - 为什么我们在 HuggingFace BART 的生成过程中需要一个 decoder_start_token_id？