LLM探索：GPT类模型的几个常用参数Top-k,Top-p,Temperature-6ren

LLM探索：GPT类模型的几个常用参数Top-k,Top-p,Temperature

转载作者：我是一只小鸟更新时间：2023-05-24 14:31:12

前言

上一篇文章介绍了几个开源LLM的环境搭建和本地部署，在使用ChatGPT接口或者自己本地部署的LLM大模型的时候，经常会遇到这几个参数，本文简单介绍一下~ 。

temperature
top_p
top_k

关于LLM

上一篇也有介绍过，这次看到一个不错的图。

A recent breakthrough in artificial intelligence (AI) is the introduction of language processing technologies that enable us to build more intelligent systems with a richer understanding of language than ever before. Large pre-trained Transformer language models, or simply large language models, vastly extend the capabilities of what systems are able to do with text. 。

Large language models are computer programs that open new possibilities of text understanding and generation in software systems.

LLM看似很神奇，但本质还是一个概率问题，神经网络根据输入的文本，从预训练的模型里面生成一堆候选词，选择概率高的作为输出，上面这三个参数，都是跟采样有关（也就是要如何从候选词里选择输出）.

temperature

用于控制模型输出的结果的随机性，这个值越大随机性越大。一般我们多次输入相同的prompt之后，模型的每次输出都不一样.

设置为 0，对每个prompt都生成固定的输出
较低的值，输出更集中，更有确定性
较高的值，输出更随机（更有创意😃）

Adjusting the temperature setting

一般来说，prompt 越长，描述得越清楚，模型生成的输出质量就越好，置信度越高，这时可以适当调高 temperature 的值；反过来，如果 prompt 很短，很含糊，这时再设置一个比较高的 temperature 值，模型的输出就很不稳定了.

遇事不决就调参，调一下，万一就生成了不错的回答呢?

PS：ChatGLM提供的例子把范围限定在0-1之间.

top_k & top_p

这俩也是采样参数，跟 temperature 不一样的采样方式.

前面有介绍到，模型在输出之前，会生成一堆 token，这些 token 根据质量高低排名.

比如下面这个图片，输入 The name of that country is the 这句话，模型生成了一堆 token，然后根据不同的 decoding strategy 从 tokens 中选择输出.

The model calculates a likelihood for each token in its vocabulary. The decoding strategy then picks one as the output.

这里的 decoding strategy 可以选择。

greedy decoding: 总是选择最高分的 token，有用但是有些弊端，详见下文
top-k: 从 tokens 里选择 k 个作为候选，然后根据它们的 likelihood scores 来采样
top-p: 候选词列表是动态的，从 tokens 里按百分比选择候选词

top-k 与 top-p 为选择 token 引入了随机性，让其他高分的 token 有被选择的机会，不像 greedy decoding 一样总是选最高分的.

greedy decoding

好处是简单，坏处是容易生成循环、重复的内容。

Greedy decoding is a reasonable strategy but has some drawbacks such as outputs with repetitive loops of text. Think of the suggestions in your smartphone's auto-suggest. When you continually pick the highest suggested word, it may devolve into repeated sentences. 。

top-k

设置越大，生成的内容可能性越大；。

设置越小，生成的内容越固定；。

设置为1时，和 greedy decoding 效果一样.

Adjusting to the top-k setting.

Changing the top-k parameter sets the size of the shortlist the model samples from as it outputs each token. Setting top-k to 1 gives us greedy decoding. 。

top-p

top-p 又名 Nucleus Sampling （核采样）。

与 top-k 固定选取前 k 个 tokens 不同，top-p 选取的 tokens 数量不是固定的，这个方法是设定一个概率阈值.

继续上面的例子，将 top-p 设定为 0.15，即选择前 15% 概率的 tokens 作为候选。如下图所示，United 和 Netherlands 的概率加起来为 15% ，所以候选词就是这俩，最后再从这些候选词里，根据概率分数，选择 united 这个词.

In top-p, the size of the shortlist is dynamically selected based on the sum of likelihood scores reaching some threshold.

Top-p is usually set to a high value (like 0.75) with the purpose of limiting the long tail of low-probability tokens that may be sampled. We can use both top-k and top-p together. If both k and p are enabled, p acts after k . 。

经常遇到的默认 top-p 值就是 0.7/0.8 这样，还是那个说法，设置太低模型的输出太固定，设置太高，模型彻底放飞自我也不好.

参考资料

https://docs.cohere.com/docs/controlling-generation-with-top-k-top-p
https://docs.cohere.com/docs/temperature
https://mp.weixin.qq.com/s/IswrgDEn94vy5dCO51I1sw

最后此篇关于LLM探索：GPT类模型的几个常用参数Top-k,Top-p,Temperature的文章就讲到这里了,如果你想了解更多关于LLM探索：GPT类模型的几个常用参数Top-k,Top-p,Temperature的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： Netty实战（二）

文章推荐： 500行代码代码手写docker-将rootfs设置为只读镜像

文章推荐： ENVI手动地理配准栅格图像的方法

探索：优雅地实现异步方法的并行化
接上篇通过一个示例形象地理解C# async await 非并行异步、并行异步、并行异步的并发量控制前些天写了两篇关于C# async await异步的博客，第一篇博客看的人多，点
探索 SwiftUI 基本手势
前言在 SwiftUI 中，我们可以通过添加不同的交互来使我们的应用程序更具交互性，这些交互可以响应我们的点击，点击和滑动。今天，我们将回顾SwiftUI基本手势：
2022年，我的关键词【探索】【表达】
今年我一直在想，2022年我想做些什么，做哪方面的改变，这周末在家终于想到了！ 2021 轻描淡写年底就一直想对2021年写一篇总结的，起码不得写个千八百字，可是思来想去不知道怎么写，直到最后都没想
java - 探索 Java 图像处理的好资源
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
.net - 探索 .net 框架源代码的替代方法
在 Eclipse 中使用 Java 进行开发时，它非常方便:您可以像自己一样附加源代码并探索核心 Java 代码。在 Visual Studio 中，我知道只有在调试时才能查看 .net 源代码(我
c - 探索 'typedef' 以创建有限的字符串数据类型？
我正在尝试创建自己的字符串数据类型，谁能告诉我 typedef 和初始化做错了什么。 #include #include typedef char string[10]; int main(){
java - 探索 Java 中的线程
我期待开发一些东西来分析在服务器上运行的应用程序的 JVM 线程，要求如下: 访问在单独应用程序中运行的所有线程打印线程栈了解事件的详细信息 - 记录执行时间和方法详细信息(在特定线程中执行) 我
android - 探索 Android 中的内部存储
是否可以探索 Android 内部存储？我需要这个用于调试目的，以帮助我的开发工作。最佳答案您可以在模拟器上，或在 Root设备上。只是 adb shell 连接设备，然后从那里导航。关于and
php - 探索 PHP 的搜索选项
我有一个使用大量外键的 innoDB 表，但我们只想从中查找一些基本信息。我做了一些研究，但还是迷路了。如何判断我的主机是否有 Sphinx已经安装了吗？我没看到作为表格存储的选项方法(即 inn
html - 探索 GWT 客户端代码中的样式元素
我有一个创建列表的 GWT 代码(作为结果的网格)，我将样式设置为 CSS 类，如 .test tr { height: 26px; } 现在...如果在渲染未完成或网格没有元素时我需要从代码
javascript - 探索 Rally 对象模型的最简单方法是什么？
我需要使用 Javascript 和 HTML 为 Rally 敏捷工具开发一个 View 。我没有处理过在我作为开发人员的新职业中经常使用的网络语言。我只是在探索他们的 API，但不知道如何探索他
apache - 探索 Hadoop 代码
我想了解 Hadoop 而不是一个黑盒子。我想探索 Hadoop 代码本身。我怎样才能不从主干下载 bundle ，我应该从哪里开始？任何帮助都会很有帮助谢谢舒佳特最佳答案 Hadoop 代码在 S
c# - 探索/调查/理解类层次结构和新项目工作原理的最佳方式
想象一下这样的情况。您获得了一些遗留代码或获得了一些新框架。您需要尽快调查并了解如何使用此代码。没有机会向以前的开发人员寻求帮助。什么是最佳实践/方法/方式/步骤/工具(首选 .NET Framewo
git - 探索 git 存储库以查找影响特定区域的更改
我注意到我的 git 存储库中的某些 makefile 缺少变量定义的问题，我想搜索所有提交历史以查找我的变量 TESTDIR 在变更集中出现的位置我该怎么做？干杯最佳答案你可以使用 git
go - 探索 GO 包
有什么方法可以探索 GO 包吗？在 java 中，我使用“javap java.lang.String”命令来查看类内部的方法。像这样，有没有命令是他们用 GO 语言写的？我在谷歌中搜索了相同的内
linux - 探索 Docker 容器的文件系统
我注意到 docker 我需要了解容器内发生了什么或其中存在哪些文件。一个示例是从 docker 索引下载图像 - 您不知道图像包含什么，因此无法启动应用程序。理想的情况是能够通过 ss
数据价值深度挖掘，分析服务上线“探索”能力
近日，华为分析服务 6.9.0版本发布，正式上线探索能力。开发者可自由定义与配置分析模型，支持报告实时预览，数据洞察体验更加灵活与便捷. 新上线的探索能力中，有漏斗分析、事件归因、会话路径分析
excel - 为什么这行得通？探索 VLOOKUP 公式
我有一个 4 列的 excel 2010 电子表格。 A 列:我销售的产品的 UPC 代码列表。大约300行。 B 列:公式(稍后会详细介绍) C 列:另一个 UPC 代码列表。这些 UPC 代码大约
sql - Oracle 加入 SQL 探索
我有 3 个表格如下: CREATE TABLE USER_STATUS ("UID" varchar2(7), "STAT_ID" varchar2(11)) ; INSERT ALL IN
javascript - 探索 javascript 对象的属性和/或功能
有什么方法可以探索 java 脚本对象(如 telerik 菜单或任何其他第 3 方对象)的属性和/或功能？我可以通过调试和破坏然后在 watch 中添加对象或在 VS 中使用智能感知来实现。我使用

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城