人工智能规模法则的起源、分析、内幕以及对齐方法-6ren

人工智能规模法则的起源、分析、内幕以及对齐方法

转载作者：撒哈拉更新时间：2024-12-16 10:49:52

上一篇：《人工智能大语言模型起源篇，低秩微调（LoRA）》。

（14）Rae 和同事（包括78位合著者！）于2022年发表的《Scaling Language Models: Methods, Analysis & Insights from Training Gopher》，https://arxiv.org/abs/2112.11446 。

《Gopher》是篇特别好的论文，包含了大量分析来帮助理解大型语言模型（LLM）的训练过程。在这篇论文中，研究人员训练了一个包含2800亿参数、80层的模型，使用了3000亿个标记（tokens）。其中包括一些有趣的架构修改，比如使用RMSNorm（均方根归一化）代替LayerNorm（层归一化）。LayerNorm和RMSNorm通常比BatchNorm更受欢迎，因为它们不依赖于批量大小，也不需要同步，在使用较小批量大小的分布式环境下具有优势。不过，通常认为RMSNorm能稳定更深层架构的训练.

除了像上述的有趣细节外，这篇论文的主要焦点是对不同规模模型任务表现的分析。在152个不同任务上的评估结果显示，增加模型规模对理解、事实核查和有害语言识别等任务的提升最大。不过，涉及逻辑和数学推理的任务，从架构扩展中获益较少.

                                              来源：图片来自https://arxiv.org/abs/2112.11446

（15）Hoffmann、Borgeaud、Mensch、Buchatskaya、Cai、Rutherford、de Las Casas、Hendricks、Welbl、Clark、Hennigan、Noland、Millican、van den Driessche、Damoc、Guy、Osindero、Simonyan、Elsen、Rae、Vinyals 和 Sifre 于2022年发表的《Training Compute-Optimal Large Language Models》，https://arxiv.org/abs/2203.15556 。

这篇论文介绍了70亿参数的Chinchilla模型，它在生成建模任务上超越了流行的175亿参数的GPT-3模型。然而，论文的核心观点是，现代的大型语言模型“明显训练不足”.

论文定义了大语言模型训练的线性扩展规律。例如，尽管Chinchilla的规模只有GPT-3的一半，但它在训练了1.4万亿（而不是仅仅3000亿）标记后，超越了GPT-3。换句话说，训练标记的数量和模型规模一样重要.

来源：https://arxiv.org/abs/2203.15556 。

（16）Biderman、Schoelkopf、Anthony、Bradley、O'Brien、Hallahan、Khan、Purohit、Prashanth、Raff、Skowron、Sutawika 和 van der Wal 于2023年发表的《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》，https://arxiv.org/abs/2304.01373 。

Pythia是一套开源的大型语言模型（70M到12B参数），用于研究大型语言模型在训练过程中如何演变.

它的架构类似于GPT-3，但包括了一些改进，例如，Flash Attention（类似LLaMA）和旋转位置嵌入（类似PaLM）。Pythia使用The Pile数据集（825GB）进行训练，训练了300B标记（在常规的PILE上约训练了1个epoch，在去重的PILE上训练了约1.5个epoch）.

                              pytaiya 模型套件来自 https://arxiv.org/abs/2304.01373。

Pythia研究的主要发现如下:

在重复数据上训练（由于大型语言模型的训练方式，这意味着训练超过一个epoch）不会对性能产生正面或负面影响.
训练顺序不会影响记忆效果。这很遗憾，因为如果情况相反，我们可以通过重新排序训练数据来缓解不希望的逐字记忆问题.
预训练的词频会影响任务性能。例如，较常见的词汇通常会提高少样本准确率.
将批量大小加倍，可以将训练时间减少一半，但不会影响收敛性.

对齐——引导大型语言模型朝向预期目标和利益。

近年来，我们看到许多相对强大的大型语言模型，它们可以生成真实的文本（比如GPT-3和Chinchilla等）。似乎我们在使用常见的预训练范式上已经达到了瓶颈.

为了让语言模型更有帮助，并减少错误信息和有害语言，研究人员设计了额外的训练范式来微调预训练的基础模型.

(17) 《训练语言模型以遵循指令并结合人类反馈》（2022年），作者：Ouyang、Wu、Jiang、Almeida、Wainwright、Mishkin、Zhang、Agarwal、Slama、Ray、Schulman、Hilton、Kelton、Miller、Simens、Askell、Welinder、Christiano、Leike、Lowe，网址：https://arxiv.org/abs/2203.02155.

在这篇所谓的InstructGPT论文中，研究人员使用了一个带有人类在环的强化学习机制（RLHF）。他们从一个预训练的GPT-3基础模型开始，使用人类生成的提示-回应对进行监督学习，进一步微调模型（步骤1）。接下来，他们让人类对模型输出进行排名，以训练一个奖励模型（步骤2）。最后，他们使用奖励模型，通过近端策略优化（PPO）强化学习更新预训练并已微调的GPT-3模型（步骤3）.

顺便提一下，这篇论文也被认为是描述ChatGPT背后思想的论文——根据最近的传闻，ChatGPT是InstructGPT的扩展版，已经在更大的数据集上进行了微调.

                                              来源：https://arxiv.org/abs/2203.02155

最后此篇关于人工智能规模法则的起源、分析、内幕以及对齐方法的文章就讲到这里了,如果你想了解更多关于人工智能规模法则的起源、分析、内幕以及对齐方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： RepoDB：一个介于Dapper、EFCore之间.Net的ORM库

文章推荐：微信授权全链路打通指南

文章推荐：常回家看看之TcacheStashingUnlinkAttack

Redis 内幕 - 采样的 LRU 实现
有人知道基于 Redis LRU 的驱逐/删除的内部结构吗。 Redis 如何确保首先删除较旧(较少使用)的键(如果我们没有 volatile 键并且我们没有设置 TTL 过期时间)？我确定 Red
iphone - 更改 Collection View 的 UILabel 内幕 header
当有人在 Collection View (大约 15 个单元格)中选择一个单元格时 - (void)collectionView:(UICollectionView *)collectionView

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

人工智能规模法则的起源、分析、内幕以及对齐方法