- VisualStudio2022插件的安装及使用-编程手把手系列文章
- pprof-在现网场景怎么用
- C#实现的下拉多选框,下拉多选树,多级节点
- 【学习笔记】基础数据结构:猫树
在 .NET 9 中,微软引入了 Microsoft.ML.Tokenizers 库,为 .NET 开发者提供了强大的文本标记化功能.
1、什么是Microsoft.ML.Tokenizers 。
Microsoft.ML.Tokenizers 是一个用于文本标记化的库,是 .NET 生态系统中的一个强大库旨在将文本转换为令牌(tokens) 。
以便在自然语言处理(NLP)任务中使用。该库支持多种标记化算法,包括字节对编码(BPE)、SentencePiece 和 WordPiece,满足不同模型和应用的需求.
自然语言处理(NLP):在训练和推理阶段,将文本转换为模型可处理的令牌格式.
预处理步骤:在文本分析、情感分析、机器翻译等任务中,对输入文本进行标记化处理.
自定义词汇表:开发者可以导入自定义词汇表,使用 BPE Tokenizer 处理特定领域的文本数据.
Microsoft.ML.Tokenizers 针对多种流行的模型系列进行了优化,包括:
GPT 系列:如 GPT-4、GPT-o1 等.
Llama 系列.
Phi 系列.
Bert 系列.
此外,该库还与其他 AI 服务集成,如 Azure、OpenAI 等,为开发者提供统一的 C# 抽象层,简化与 AI 服务的交互.
Tokenizer
类Tokenizer 类充当文本处理的管道,接受原始文本输入并输出 TokenizerResult 对象。它允许设置不同的模型、预处理器和规范化器,以满足特定需求.
主要方法:
Encode(string text): 将输入文本编码为包含令牌列表、令牌 ID 和令牌偏移映射的对象.
Decode(IEnumerable<int> ids, bool skipSpecialTokens = true): 将给定的令牌 ID 解码回字符串.
TrainFromFiles(Trainer trainer, ReportProgress reportProgress, params string[] files): 使用输入文件训练标记器模型.
主要属性:
Model: 获取或设置标记器使用的模型.
PreTokenizer: 获取或设置标记器使用的预处理器.
Normalizer: 获取或设置标记器使用的规范化器.
Decoder: 获取或设置标记器使用的解码器.
Model
类Model 类是标记化过程中使用的模型的抽象基类,如 BPE、WordPiece 或 Unigram。具体模型(如 Bpe)继承自该类,并实现其方法.
主要方法:
GetTrainer(): 获取用于训练模型的训练器对象.
GetVocab(): 获取将令牌映射到 ID 的词汇表.
GetVocabSize(): 获取词汇表的大小.
TokenToId(string token): 将令牌映射到标记化 ID.
IdToToken(int id, bool skipSpecialTokens = true): 将标记化 ID 映射到令牌.
Tokenize(string sequence): 将字符串序列标记化为令牌列表.
Save(string vocabPath, string mergesPath): 将模型数据保存到词汇和合并文件中.
Bpe
类Bpe 类表示字节对编码(Byte Pair Encoding)模型,是 Model 类的具体实现之一。它用于将文本拆分为子词单元,以提高对未登录词的处理能力.
主要属性:
UnknownToken: 获取或设置未知令牌。在遇到未知字符时使用.
FuseUnknownTokens: 获取或设置是否允许多个未知令牌融合.
ContinuingSubwordPrefix: 用于仅存在于另一个子词后面的任何子词的可选前缀.
EndOfWordSuffix: 用于描述词尾子词特征的可选后缀.
主要方法:
Save(string vocabPath, string mergesPath): 将模型数据保存到词汇和合并文件中.
Tokenize(string sequence): 将字符串序列标记化为令牌列表.
GetTrainer(): 获取用于训练模型的训练器对象,并生成词汇和合并数据.
EnglishRoberta
类EnglishRoberta 类是专门为英语 Roberta 模型设计的标记器模型。它继承自 Model 类,并实现了特定于 Roberta 的标记化逻辑.
主要属性:
PadIndex: 获取符号列表中填充符号的索引.
SymbolsCount: 获取符号列表的长度.
主要方法:
AddMaskSymbol(string maskSymbol): 将掩码符号添加到符号列表.
IdsToOccurrenceRanks(IReadOnlyList<int> ids): 将令牌 ID 列表转换为最高出现次数排名.
OccurrenceRanksIds(IReadOnlyList<int> ranks): 将最高出现次数排名的列表转换为令牌 ID 列表.
Save(string vocabPath, string mergesPath): 将模型数据保存到词汇、合并和匹配项映射文件中。 。
RobertaPreTokenizer
类RobertaPreTokenizer 类是为英语 Roberta 标记器设计的预处理器。它负责在标记化之前对文本进行初步拆分和处理.
主要方法:
PreTokenize(string text)
: 对输入文本进行预标记化处理。Split
类Split 类表示将原始字符串拆分后的子字符串。每个子字符串由一个标记表示,最终可能代表原始输入字符串的各个部分.
主要属性:
TokenString
: 获取基础拆分令牌。5、示例代码 。
使用 Microsoft.ML.Tokenizers 库对文本进行标记化,以适配 GPT-4 模型,可以按照以下步骤进行:
安装必要的 NuGet 包:确保项目引用了 Microsoft.ML.Tokenizers 包.
加载 GPT-4 的词汇表和合并对文件:从官方或可信来源获取 GPT-4 模型的词汇表(vocab.json)和合并对(merges.txt)文件.
初始化 BPE 模型并加载词汇表:使用 Microsoft.ML.Tokenizers 库中的 Bpe 类加载词汇表和合并对文件.
创建标记器并进行文本标记化和解码:使用 Tokenizer 类对输入文本进行标记化,并根据需要解码回原始文本.
以下是示例代码:
using System; using Microsoft.ML.Tokenizers; class Program { static void Main(string[] args) { // 初始化 BPE 模型 var bpe = new Bpe(); // 加载 GPT-4 的词汇表和合并对文件 bpe.Load("path_to_vocab.json", "path_to_merges.txt"); // 创建标记器 var tokenizer = new Tokenizer(bpe); // 输入文本 var inputText = "这是一个用于测试的文本。"; // 对文本进行标记化 var encoded = tokenizer.Encode(inputText); // 输出标记化结果 Console.WriteLine("Tokens:"); foreach (var token in encoded.Tokens) { Console.WriteLine(token); } // 解码回原始文本 var decodedText = tokenizer.Decode(encoded.Ids); Console.WriteLine($"Decoded Text: {decodedText}"); } }
路径设置:将 "path_to_vocab.json" 和 "path_to_merges.txt" 替换为实际的文件路径.
词汇表和合并对文件的获取:确保从官方或可信来源获取与 GPT-4 模型兼容的词汇表和合并对文件.
模型兼容性:虽然此代码使用了通用的 BPE 标记器,但在实际应用中,可能需要根据 GPT-4 模型的具体要求进行调整.
周国庆 。
2025/1/6 。
最后此篇关于.NET9newfeatures-Microsoft.ML.Tokenizers库的文章就讲到这里了,如果你想了解更多关于.NET9newfeatures-Microsoft.ML.Tokenizers库的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
Java 库和 android 库有什么区别,各自有什么优点/缺点? 最佳答案 您可以在 Android 应用程序中包含标准 Java .jar 文件库。它们在 .apk 构建时被翻译成 Dalvik
所以,我现在的代码就像从 Java 层加载库(比如 liba.so),并在内部 liba.so 加载 libb.so。因此,如果我必须将所有库打包到 APK 中并将其安装在没有 root 访问权限的设
我想在我的系统中设置 LEDA 库。 我已经从以下链接下载了 LEDA 库 http://www.algorithmic-solutions.info/free/d5.php Instruct
我想用 autoconf 创建一个共享库。但是,我希望共享库具有“.so”扩展名,而不是以“lib”开头。基本上,我想制作一个加载 dlopen 的插件。 .是否有捷径可寻? 当我尝试使用 autoc
我需要在 Apps 脚本应用程序上修改 PDF。为此,我想使用 JS 库:PDF-LIB 我的代码: eval(UrlFetchApp.fetch("https://unpkg.com/pdf-lib
我正在构建一个使用以下 Boost header 的程序(我使用的是 Microsoft Visual C++ 10), #include #include #include #include
当我通过 cygwin 在 hadoop 上运行此命令时: $bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 我
我已经通过 vcpgk 成功安装了一个 C++ 库,名为:lmdb:x64-windows 我还安装了lmdb通过 Cabal 安装的 Haskell 绑定(bind)包 在尝试测试 lmdb 包时:
我该如何解决这个问题? 我刚刚将 javacv jar 文件复制到我的项目 Lib 文件夹下,但出现了这个错误! 我可以找到这个thread来自谷歌,但不幸的是,由于我国的谷歌限制政策,该页面无法打开
我有一个 Android 库项目 FooLib。 FooLib 引用 Android Context 之类的东西,但不需要任何资源文件(res/ 中的东西)所以我目前将其打包为供我的应用使用的 JAR
我正在开发一个 Android 应用程序(使用 Android Studio),它能够通过手势识别算法了解您正在进行的 Activity 。对于我使用 nickgillian ithub 帐户上可用的
关于从 .NET Framework 项目中引用 .NET Standard 类库的问题有很多类似的问题,其中 netstandard 库中的 NuGet 包依赖项不会流向 netframework
我已经从互联网上下载了 jna-4.2.2.jar,现在想将这个 jar 导入到我的项目中。但是当我试图将这个 jar 导入我的项目时,出现以下错误。 [2016-06-20 09:35:01 - F
我正在尝试通过编译在 Mac 上安装 rsync 3.2.3。但是,我想安装所有功能。为此,它需要一些库,此处 ( https://download.samba.org/pub/rsync/INSTA
进入 Web 开发有点困难。过去 5 年我一直致力于 winforms 工作。所以我正在努力从一种切换到另一种。前段时间,我使用过 JavaScript,但现在还没有大量的 JavaScript 库
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我正在寻找一个用Python编写的与logstash(ruby + java)类似的工具/库。 我的目标是: 从 syslog 中解析所有系统日志 解析应用程序特定日志(apache、django、m
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我花了几天时间试图寻找用于 JavaPOS 实现的 .jar 库,但我找不到任何可以工作的东西。我找到了很多像这样的文档:http://jpos.1045706.n5.nabble.com/file/
这个问题在这里已经有了答案: Merge multiple .so shared libraries (2 个答案) 关闭 9 年前。 我有我在代码中使用的第三方库的源代码和对象。该库附带有关如何使
我是一名优秀的程序员,十分优秀!