人工智能大语言模型起源篇（一），从哪里开始-6ren

人工智能大语言模型起源篇（一），从哪里开始

转载作者：撒哈拉更新时间：2024-12-12 10:27:25

序言：许多人最初接触人工智能都是在ChatGPT火热之际，并且大多停留在应用层面。对于希望了解其技术根源的人来说，往往难以找到方向。因此，我们编写了《人工智能大语言模型起源篇》，旨在帮助读者找到正确的学习路径，了解大型语言模型的大致起源。本文将分为三个部分，介绍当前主流的大型语言模型架构Transformer（变换器）模型的起源及其发展历程。Transformer并非横空出世，而是人工智能领域研究者们在长期探索和实验中逐步发展起来的.

大型语言模型（LLM）早已经征服了当今的人工智能领域——这不是开玩笑。在短短五年多的时间里，大型语言模型——即变换器（Transformers）——几乎彻底改变了自然语言处理领域。而且，它们正在彻底改变计算机视觉和计算生物学等领域.

由于变换器对每个人的研究议程产生了如此大的影响，今天的这篇文章我想为那些刚刚入门的人工智能学习研究者和从业者整理一份简短的渐进式阅读清单.

建议按下面清单的先后顺序来阅读，这些则主要是专注于学术研究论文。当然，市场上还有很多其他有用的资源

Jay Alammar 的《Illustrated Transformer》http://jalammar.github.io/illustrated-transformer/；。

Lilian Weng 的《一篇更技术性的博客文章》https://lilianweng.github.io/posts/2020-04-07-the-transformer-family/；。

Xavier Amatriain 汇总并绘制的《所有主要变换器的目录和家谱》https://amatriain.net/blog/transformer-models-an-introduction-and-catalog-2d1e9039f376/；。

Andrej Karpathy 为了教育目的提供的《生成语言模型的最简代码实现》https://github.com/karpathy/nanoGPT；。

Sebastian Raschka的《讲座》https://sebastianraschka.com/blog/2021/dl-course.html#l19-self-attention-and-transformer-networks和《书籍》https://github.com/rasbt/machine-learning-book/tree/main/ch16.

理解主要架构和任务。

如果你是第一次接触变换器 / 大型语言模型，那么最好从头开始.

（1）Bahdanau、Cho 和 Bengio 于2014年发表的《通过联合学习对齐和翻译的神经机器翻译》（Neural Machine Translation by Jointly Learning to Align and Translate），https://arxiv.org/abs/1409.0473 。

如果你有几分钟的时间，我建议从上述论文开始。它介绍了一种用于递归神经网络（RNN）的注意力机制，以提高长序列建模能力。这使得RNN能够更准确地翻译更长的句子——这也是后来开发原始变换器架构的动机.

图片来源：https://arxiv.org/abs/1409.0473 。

（2）Vaswani、Shazeer、Parmar、Uszkoreit、Jones、Gomez、Kaiser 和 Polosukhin 于2017年发表的《Attention Is All You Need》，https://arxiv.org/abs/1706.03762 。

上面的论文介绍了原始的变换器架构，包括一个编码器和一个解码器部分，这两个部分后来会作为独立的模块变得非常重要。此外，这篇论文还介绍了一些概念，比如缩放点积注意力机制、多头注意力模块和位置输入编码，这些都成为了现代变换器的基础.

图片来源：https://arxiv.org/abs/1706.03762 。

（3）Xiong、Yang、He、K Zheng、S Zheng、Xing、Zhang、Lan、Wang 和 Liu 于2020年发表的《On Layer Normalization in the Transformer Architecture》，https://arxiv.org/abs/2002.04745 。

虽然上面这张来自《Attention Is All You Need》（https://arxiv.org/abs/1706.03762）的原始变换器图是对原始编码器-解码器架构的有用总结，但图中层归一化（LayerNorm）的位置一直是一个备受争议的话题.

举个例子，《Attention Is All You Need》中的变换器图将层归一化放在残差块之间，这与原始变换器论文中附带的官方https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25（更新版）代码实现不一致。图中所示的变体被称为Post-LN变换器，而更新的代码实现默认使用的是Pre-LN变体.

《On Layer Normalization in the Transformer Architecture》https://arxiv.org/abs/2002.04745这篇论文指出，Pre-LN效果更好，能解决梯度问题，如下所示。许多架构在实践中采用了这一方法，但它可能会导致表示崩塌.

所以，虽然目前关于使用Post-LN还是Pre-LN的讨论仍在继续，但也有一篇新论文提出了利用两者优势的方案：ResiDual：带有双残差连接的变换器（https://arxiv.org/abs/2304.14802）；它是否在实践中有用，仍有待观察.

图片来源： https://arxiv.org/abs/1706.03762（左和中）以及 https://arxiv.org/abs/2002.04745（右）。

（4）Schmidhuber 于1991年发表的《Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks》，https://www.semanticscholar.org/paper/Learning-to-Control-Fast-Weight-Memories%3A-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922 。

这篇论文推荐给那些对历史细节以及与现代变换器（Transformers）原理上有相似性的早期方法感兴趣的人.

例如，在1991年，也就是大约在上述原始变换器论文（《Attention Is All You Need》）发布的二十五年半之前，Juergen Schmidhuber 提出了一个递归神经网络的替代方案，称为快速权重编程（Fast Weight Programmers，FWP）。FWP方法涉及一个前馈神经网络，通过梯度下降慢慢学习来编程另一个神经网络的快速权重变化.

这个与现代变换器的类比在这篇博客文章https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2中是这样解释的:

在今天的变换器术语中，FROM 和 TO 分别被称为键（key）和值（value）。应用于快速网络的输入被称为查询（query）。本质上，查询通过快速权重矩阵处理，后者是键和值外积的和（忽略归一化和投影）。由于两个网络的所有操作都是可微的，我们通过加法外积或二阶张量积获得了快速权重变化的端到端可微的主动控制。[FWP0-3a] 因此，慢网络可以通过梯度下降学习在序列处理过程中快速修改快网络。这在数学上等价（除了归一化）于后来被称为具有线性自注意力的变换器（或线性变换器）.

正如上面博客摘录所提到的，这种方法现在被称为“线性变换器”或“具有线性化自注意力的变换器”，通过2020年在arXiv上发布的几篇论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》https://arxiv.org/abs/2006.16236和《Rethinking Attention with Performers》https://arxiv.org/abs/2009.14794进一步阐明了这一点.

2021年，论文《Linear Transformers Are Secretly Fast Weight Programmers》则明确展示了线性化自注意力和1990年代的快速权重编程之间的等价性。” 。

来源：基于https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2的注释图。

最后此篇关于人工智能大语言模型起源篇（一），从哪里开始的文章就讲到这里了,如果你想了解更多关于人工智能大语言模型起源篇（一），从哪里开始的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：高效文件处理：Pythonpathlib实战指南

文章推荐： Reviewbot开源|这些写Go代码的小技巧，你都知道吗？

文章推荐：图片渲染API：极速生成电商、社媒、营销、横幅、证书等图片！

文章推荐：零基础学习人工智能—Python—Pytorch学习（十一）

c# - Mvvm 模型 View 模型
可不可以命名为MVVM模型？因为View通过查看模型数据。 View 是否应该只与 ViewModelData 交互？我确实在某处读到正确的 MVVM 模型应该在 ViewModel 而不是 Mode
javascript - 模型 -> 观察者 -> View -> Controller -> 模型 ->
我正在阅读有关设计模式的文章，虽然作者们都认为观察者模式很酷，但在设计方面，每个人都在谈论 MVC。我有点困惑，MVC 图不是循环的，代码流具有闭合拓扑不是很自然吗？为什么没有人谈论这种模式: mo
c# - WPF 中的便笺项目。模型、 View 、 View 模型
我正在开发一个 Sticky Notes 项目并在 WPF 中做 UI，显然将 MVVM 作为我的架构设计选择。我正在重新考虑我的模型、 View 和 View 模型应该是什么。我有一个名为 Not
C# 根据模型中的枚举属性将列表<模型> 转换为字典<枚举，列表<模型>>？
不要混淆:How can I convert List to Hashtable in C#? 我有一个模型列表，我想将它们组织成一个哈希表，以枚举作为键，模型列表(具有枚举的值)作为值。 publi
c# - 实体 vs 模型 vs View 模型
我只是花了一些时间阅读这些术语(我不经常使用它们，因为我们没有任何 MVC 应用程序，我通常只说“模型”)，但我觉得根据上下文，这些意味着不同的东西: 实体这很简单，它是数据库中的一行: 2) In
c# - 在大型应用程序中使用 MVVM - 共享 View 模型、模型、状态等
我想知道你们中是否有人知道一些很好的教程来解释大型应用程序的 MVVM。我发现关于 MVVM 的每个教程都只是基础知识解释(如何实现模型、 View 模型和 View )，但我对在应用程序页面之间传递
swift - 清除 Realm 中除一种对象类型(模型)之外的所有对象类型(模型)的方法
我想realm.delete() 我的 Realm 中除了一个模型之外的所有模型。有什么办法可以不列出所有这些吗？也许是一种遍历 Realm 中当前存在的所有类型的方法？最佳答案您可以从您的 R
php - Mocking Laravel Eloquent 模型 - AppServiceProvider 中使用的 Mocking 模型
我正在尝试使用 alias 指令模拟一个 Eloquent 模型，如下所示: $transporter = \Mockery::mock('alias:' . Transporter::class)
R Stargazer 与 pglm 模型 - 在 plm 模型中转换二项式 pglm 模型
我正在使用 stargazer 创建我的 plm 汇总表。 library(plm) library(pglm) data("Unions", package = "pglm") anb1 <- pl
ASP.NET MVC + EF 4.1 分层、模型、 View 模型
我读了几篇与 ASP.NET 分层架构相关的文章和问题，但是读得太多后我有点困惑。 UI 层是在 ASP.NET MVC 中开发的，对于数据访问，我在项目中使用 EF。我想通过一个例子来描述我的问题
ios -/ml 模型/Inception V3.ml 模型 : unable to read document
我收到此消息错误: Inceptionv3.mlmodel: unable to read document 我下载了最新版本的 xcode。 9.4 版测试版 (9Q1004a) 最佳答案您没有
c# - ASP.NET MVC3 Automapper View 模型/模型 View 验证
(同样，一个 MVC 验证问题。我知道，我知道......) 我想使用 AutoMapper ( http://automapper.codeplex.com/ ) 来验证我的创建 View 中不在我
android - 如何使用 sharedview 模型 koin android 注入(inject)具有作用域的 View 模型
需要澄清一件事，现在我正在处理一个流程，其中我有两个 View 模型，一个依赖于另一个 View 模型，为了处理这件事，我尝试在我的基本 Activity 中注入(inject)两个 View 模型，
wpf - 如何在 Window.Resources 标签中使用带有数据绑定(bind)的 View 模型、模型、命令类？
如果 WPF MVVM 应该没有代码，为什么在使用 ICommand 时，是否需要在 Window.xaml.cs 代码中实例化 DataContext 属性？我已经并排观看并关注了 YouTube
asp.net - 模型-存储库-服务-验证器- View - View 模型- Controller 设计模式(？)
当我第一次听说 ASP.NET MVC 时，我认为这意味着应用程序由三个部分组成:模型、 View 和 Controller 。然后我读到 NerdDinner并学习了存储库和 View 模型的方法
python - 如何使用 mmconvert 将 tensorflow 模型(InceptionResnetV2 pb 文件)转换为 pytorch 模型？
Platform : ubuntu 16.04 Python version: 3.5.2 mmdnn version : 0.2.5 Source framework with version :
swift - 在 super.init 初始化 self super.init 之前，在属性访问 'self' 中使用 'model'(品牌 : brand, 模型:模型)
我正在学习本教程:https://www.raywenderlich.com/160728/object-oriented-programming-swift ...并尝试对代码进行一些个人调整，看看
AngularJS 模型
我正试图围绕 AngularJS。我很喜欢它，但一个核心概念似乎在逃避我——模型在哪里？例如，如果我有一个显示多个交易列表的应用程序。一个列表向服务器查询匹配某些条件的分页事务集，另一个列表使用不同
模型、业务规则和持久性
我在为某个应用程序找出最佳方法时遇到了麻烦。我不太习惯取代旧 TLA(三层架构)的新架构，所以这就是我的来源。在为我的应用程序(POCO 类，对吧？？)设计模型和 DAL 时，我有以下疑问: 我的模
Django - 模型 - 如何描述两个模型之间的特定双向关系？
我有两个模型:Person 和 Department。每个人可以在一个部门工作。部门可以由多人管理。我不确定如何在 Django 模型中构建这种关系。这是我不成功的尝试之一 [models.py]:

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

人工智能大语言模型起源篇（一），从哪里开始