更快的辅助生成:动态推测-6ren

更快的辅助生成:动态推测

转载作者：撒哈拉更新时间：2024-10-21 12:22:49

58

4

⭐ 在这篇博客文章中，我们将探讨动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法，可以加速文本生成高达 2.7 倍，具体取决于任务。从 Transformers🤗 发布的版本 4.45.0 开始，这种方法是辅助生成的默认模式⭐ 。

推测解码

推测解码技术十分流行，其用于加速大型语言模型的推理过程，与此同时保持其准确性。如下图所示，推测解码通过将生成过程分为两个阶段来工作。在第一阶段，一个快速但准确性较低的草稿模型 (Draft，也称为助手) 自回归地生成一系列标记。在第二阶段，一个大型但更准确的目标模型 (Target) 对生成的草稿标记进行并行验证。这个过程允许目标模型在单个前向传递中生成多个标记，从而加速自回归解码。推测解码的成功在很大程度上取决于推测前瞻 (Speculative Lookahead，下文用 SL 表示)，即草稿模型在每次迭代中生成的标记数量。在实践中，SL 要么是一个静态值，要么基于启发式方法，这两者都不是在推理过程中发挥最大性能的最优选择.

推测解码的单次迭代

推测解码的单次迭代。

动态推测解码

Transformers🤗 库提供了两种不同的方法来确定在推理过程中调整草稿 (助手) 标记数量的计划。基于 Leviathan 等人的直接方法使用推测前瞻的静态值，并涉及在每个推测迭代中生成恒定数量的候选标记。另一种基于启发式方法的方法根据当前迭代的接受率调整下一次迭代的候选标记数量。如果所有推测标记都是正确的，则候选标记的数量增加; 否则，数量减少.

我们预计，通过增强优化策略来管理生成的草稿标记数量，可以进一步减少延迟。为了测试这个论点，我们利用一个预测器来确定每个推测迭代的最佳推测前瞻值 (SL)。该预测器利用草稿模型自回归的生成标记，直到草稿模型和目标模型之间的预测标记出现不一致。该过程在每个推测迭代中重复进行，最终确定每次迭代接受的草稿标记的最佳 (最大) 数量。草稿/目标标记不匹配是通过在零温度下 Leviathan 等人提出的拒绝抽样算法 (rejection sampling algorithm) 来识别的。该预测器通过在每一步生成最大数量的有效草稿标记，并最小化对草稿和目标模型的调用次数，实现了推测解码的全部潜力。我们称使用该预测器得到 SL 值的推测解码过程为预知 (orcale) 的推测解码.

下面的左图展示了来自 MBPP 数据集的代码生成示例中的预知和静态推测前瞻值在推测迭代中的变化。可以观察到预知的 SL 值 (橙色条) 存在很高的变化。静态 SL 值 (蓝色条) 中，生成的草稿标记数量固定为 5，执行了 38 次目标前向传播和 192 次草稿前向传播，而预知的 SL 值只执行了 27 次目标前向传播和 129 次草稿前向传播 - 减少了很多。右图展示了整个 Alpaca 数据集中的预知和静态推测前瞻值.

在 MBPP 的一个例子上的预知和静态推测前瞻值 (SL)。

在 MBPP 的一个例子上的预知和静态推测前瞻值 (SL).

在整个 Alpaca 数据集上平均的预知 SL 值.

上面的两个图表展示了预知推测前瞻值的多变性，这说明静态的推测解码可能使次优的.

为了更接近预知的推测解码并获得额外的加速，我们开发了一种简单的方法来在每次迭代中动态调整推测前瞻值。在生成每个草稿令牌后，我们确定草稿模型是否应继续生成下一个令牌或切换到目标模型进行验证。这个决定基于草稿模型对其预测的信心，通过 logits 的 softmax 估计。如果草稿模型对当前令牌预测的信心低于预定义的阈值，即 assistant_confidence_threshold ，它将在该迭代中停止令牌生成过程，即使尚未达到最大推测令牌数 num_assistant_tokens 。一旦停止，当前迭代中生成的草稿令牌将被发送到目标模型进行验证.

基准测试

我们在一系列任务和模型组合中对动态方法与启发式方法进行了基准测试。动态方法在所有测试中表现出更好的性能。值得注意的是，使用动态方法将 Llama3.2-1B 作为 Llama3.1-8B 的助手时，我们观察到速度提升高达 1.52 倍，而使用相同设置的启发式方法则没有显著的速度提升。另一个观察结果是， codegen-6B-mono 在使用启发式方法时表现出速度下降，而使用动态方法则表现出速度提升.

目标模型	草稿模型	任务类型	加速比 - 启发式策略	加速比 - 动态策略
`facebook/opt-6.7b`	`facebook/opt-125m`	summarization	1.82x	2.71x
`facebook/opt-6.7b`	`facebook/opt-125m`	open-ended generation	1.23x	1.59x
`Salesforce/codegen-6B-mono`	`Salesforce/codegen-350M-mono`	code generation (python)	0.89x	1.09x
`google/flan-t5-xl`	`google/flan-t5-small`	summarization	1.18x	1.31x
`meta-llama/Llama-3.1-8B`	`meta-llama/Llama-3.2-1B`	summarization	1.00x	1.52x
`meta-llama/Llama-3.1-8B`	`meta-llama/Llama-3.2-1B`	open-ended generation	1.00x	1.18x
`meta-llama/Llama-3.1-8B`	`meta-llama/Llama-3.2-1B`	code generation (python)	1.09x	1.15x

表格中的结果反映了贪婪解码 (temperature = 0)。在使用采样 (temperature > 0) 时也观察到了类似的趋势。
所有测试均在 RTX 4090 上进行。
我们的基准测试是公开的，允许任何人评估进一步的改进: https://github.com/gante/huggingface-demos/tree/main/experiments/faster_generation

代码

动态推测已经整合到 Hugging Face Transformers 库的 4.45.0 版本中，并且现在作为辅助解码的默认操作模式。要使用带有动态推测的辅助生成，无需进行任何代码更改，只需像平常一样执行代码即可

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

prompt = "Alice and Bob"
checkpoint = "EleutherAI/pythia-1.4b-deduped"
assistant_checkpoint = "EleutherAI/pythia-160m-deduped"
device = "cuda" if torch.cuda.is_available() else "cpu"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
inputs = tokenizer(prompt, return_tensors="pt").to(device)

model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)
assistant_model = AutoModelForCausalLM.from_pretrained(assistant_checkpoint).to(device)

outputs = model.generate(**inputs, assistant_model=assistant_model)

默认的动态推测前瞻的参数反应了最优的值，但是可以使用下面的代码进行调整来在特定模型和数据上获得更好的性能

# confidence threshold
assistant_model.generation_config.assistant_confidence_threshold=0.4

# 'constant' means that num_assistant_tokens stays unchanged during generation
assistant_model.generation_config.num_assistant_tokens_schedule='constant'

# the maximum number of tokens generated by the assistant model.
# after 20 tokens the draft halts even if the confidence is above the threshold
assistant_model.generation_config.num_assistant_tokens=20

要恢复到启发式或静态方法 (如 Leviathan 等人中所述)，只需分别将 num_assistant_tokens_schedule 设置为 'heuristic' 或 'constant' ，将 assistant_confidence_threshold=0 和 num_assistant_tokens=5 设置如下

# Use 'heuristic' or 'constant' or 'dynamic'
assistant_model.generation_config.num_assistant_tokens_schedule='heuristic'
assistant_model.generation_config.assistant_confidence_threshold=0
assistant_model.generation_config.num_assistant_tokens=5

接下来是什么？

我们介绍了一种更快的辅助生成策略，名为动态推测解码，它优于启发式方法以及固定数量候选标记的方法.

在即将发布的博客文章中，我们将展示一种新的辅助生成方法: 将任何目标模型与任何助手模型结合起来！这将为在 Hugging Face Hub 上加速无法获得足够小的助手变体的无数模型打开大门。例如， Phi 3 、 Gemma 2 、 CodeLlama 等等都将有资格进行推测解码。敬请关注！。

参考资料

Dynamic Speculation Lookahead Accelerates Speculative Decoding of Large Language Models。

在这篇论文中，我们介绍了 DISCO，一种动态推测前瞻优化方法，利用分类器决定草稿模型是否应该继续生成下一个标记，还是暂停，并切换到目标模型进行验证，而不是仅仅使用对预测概率的简单阈值.

Assisted Generation: a new direction toward low-latency text generation
Fast Inference from Transformers via Speculative Decoding

原文链接: https://hf.co/blog/dynamic_speculation_lookahead 。

原文作者: Jonathan Mamou, Oren Pereg, Joao Gante, Lewis Tunstall, Daniel Korat, Nadav Timor, Moshe Wasserblat 。

译者: Zipxuan 。

最后此篇关于更快的辅助生成:动态推测的文章就讲到这里了,如果你想了解更多关于更快的辅助生成:动态推测的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

58

4

0

文章推荐： SpringBoot2.7.18集成MybatisPlus+Druid

文章推荐：上周热点回顾（10.14-10.20）

文章推荐： Java如何确保JS不被缓存

文章推荐： go：极简上手使用stretchr/testify进行mock测试

JavaScript:动态(动态)创建样式元素的优缺点
在 JavaScript 中，我们可以动态创建元素并附加到部分，以便为大量元素应用 CSS 规则。这种方法的优点或缺点是什么？如果它确实提供了与元素上的 javascript 迭代相比的性
flutter - Flutter Dart:错误_ImmutableMap <动态，动态>' is not a subtype of type ' Map
我有这个代码 import "./HTTPMethod.dart"; import '../../DataModel/DataModel.dart'; mixin RouterMixin { HT
mdx - 动态、动态、OLAP 维度
哪些 OLAP 工具支持动态、动态地创建维度或层次结构？例如，层次结构将成员定义为:“前 5 名”、“前 6-10 名”、“其他”... 计算成员是通常的答案，我正在寻找不同的东西。计算器的问题。成
validation - 动态/动态 CakePhp 3 验证和 FormHelper
我正在 CakePHP 中创建一个“表单编辑器”。该界面允许用户选择要应用于字段的验证，例如数字、电子邮件等因此，我需要根据用户输入为模型动态创建验证。为此，我可以使用验证对象:https://b
java - 动态(动态)生成 Web 服务 - 如何？
这是一个场景: 我有一个Web服务，我们将其称为部署在tomcat(轴)上的StockQuoteService。通过此 Web 服务公开了 getStockQuote() 方法。现在，我想构建一个
dart - 未处理的异常 : InternalLinkedHashMap' is not a subtype of type ' 列表<动态>
我正在尝试从服务器获取 JSON 响应并将其输出到控制台。 Future login() async { var response = await http.get( Uri.
json - Flutter dart json未处理的异常: InternalLinkedHashMap' is not a subtype of type '列表<动态>
我从另一个问题中得到了这段代码(感谢 chunhunghan)。我需要创建一个登录屏幕，并尝试根据服务器发回给我的响应来验证用户凭据，但是每次我尝试运行代码时，它都会给我“未处理的异常:Interna
Dart 代码在我的 Flutter 应用程序中表现不同。列表<动态 >' is not a subtype of type ' 列表< map <字符串，动态>>
当我在“Dart”主程序中运行它时，一切正常，并且我得到了一个与会者列表。但是，当我在我的 Flutter 应用程序中调用它时，出现错误: flutter:“List”类型不是“List>”类型的子类
js实现验证码干扰(动态)
本文实例为大家分享了js实现验证码动态干扰的具体代码，供大家参考，具体内容如下效果一效果二代码一 ?
Cloudflare 动态 DNS
目前我正在为我的网站使用 No-Ip，我想使用 cloudflare 来抵御 ddos 和机器人程序。我注意到您需要一个用于 cloudflare 的域。我还搜索了网络，发现了一个叫做 cloud
vba - 动态 IF 语句
有没有办法在 Excel VBA 中构建动态 if 语句？基本上我正在尝试创建一个参数化计算，用户将能够输入不同的变量，即变量 1 “变量 2” “变量 3” 在这种情况下变量 1 是单元格引用
vba - 格式化(动态)
大家好，请查看上面的图片，我有两张 table 。在下面代码的第一个表中，我得到了这种格式。但我想像 Table2 那样格式化，每个合并单元格中的行数是动态的，而且不一样。有没有办法像table
header - 动态 heightForHeaderInSection
如何根据我添加的 View 修改标题部分的高度？heightForHeaderInSection在 viewForHeaderInSection 之前被调用我不知道 View 大小，直到我创建它。最
parsing - 动态 (?) 解析器
是否存在在运行时生成 AST/解析树的解析器？有点像一个库，它会接受一串 EBNF 语法或类似的东西并吐出数据结构？我知道 antlr、jlex 和他们的同类。他们生成可以做到这一点的源代码。 (喜
Django 动态 OR 查询
我在持有汽车制造商的表格上有一个 MultipleChoiceField。我想将我的汽车数据库过滤到已检查的品牌，但这会导致问题。如何动态获取所有 Q(make=...) 语句？我如何开始:['va
PHP 动态 preg_replace
$end = preg_replace($pattern, $replacement, $str); 如何使替换字符串 $replacement 随 $str 中的每次匹配而变化？例如，我想用关联的图
excel - 在VBA中获取表范围(动态)
我正在编写一个 VBA 程序，用于过滤表中的值。我试图使其成为一个适用于您提供的所有表格的通用程序。在我的程序中，我必须设置它正在过滤的表的范围:Set rng = dataSheet.Range("
javascript - 动态/递归结构中的切换按钮
我正在循环一个元素数组，并且我想使用给定的模板递归地显示该元素然后在该模板内使用带有切换功能的按钮来显示/隐藏给定元素的Child的更深级别模板(Child也是一个元素) 这是我的模板
javascript - 使用对象选择要运行的函数(动态)
从客户端(html)发送表单，服务器端通过选择选项之一决定运行哪个函数。 const decideWho = (form) => { const choice = form.choice; c
java - 动态/编程设置具有可绘制背景的按钮的大小
我有一个具有以下属性的按钮: circle_normal.xml(在 res/drawable 中) circle.xml(在 res/drawable 中)

首页

博学

6Ren·AI

商城