【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读

转载作者：撒哈拉更新时间：2024-09-10 01:25:31

1、前言

本文主要是在复现和实践Phi2-mini-Chinese后，简要分析下Phi2-mini-Chinese这个项目，做一个学习实战总结.

原文发布于知乎：https://zhuanlan.zhihu.com/p/718307193，转载请注明出数.

Phi2-mini-Chinese简介

Phi2-Chinese-0.2B 从0开始训练自己的Phi2中文小模型，支持接入langchain加载本地知识库做检索增强生成RAG。Training your own Phi2 small chat model from scratch. 。

项目开始时期：2023年12月22日地址：https://github.com/charent/Phi2-mini-Chinese 。

流程步骤。

数据处理
Tokenizer训练
预训练
SFT
DPO

数据处理的步骤略去。一般是使用开源数据集.

2、Tokenizer训练

就是使用tokenizers库用BPE训练，没啥好说的.

3、预训练代码

import os, platform, time
from typing import Optional
import numpy as np
import pandas as pd
from dataclasses import dataclass,field
from datasets import load_dataset, Dataset
import torch
from transformers.trainer_callback import TrainerControl, TrainerState
from transformers import PreTrainedTokenizerFast, DataCollatorForLanguageModeling, PhiConfig, PhiForCausalLM, Trainer, TrainingArguments, TrainerCallback

# 预训练数据（单纯的文本数据）
TRAIN_FILES = ['./data/wiki_chunk_320_2.2M.parquet',]
EVAL_FILE = './data/pretrain_eval_400_1w.parquet'

@dataclass
class PretrainArguments:
    tokenizer_dir: str = './model_save/tokenizer/'
    model_save_dir: str = './model_save/pre/'
    logs_dir: str = './logs/'
    train_files: list[str] = field(default_factory=lambda: TRAIN_FILES)
    eval_file: str = EVAL_FILE
    max_seq_len: int = 512
    attn_implementation: str = 'eager' if platform.system() == 'Windows' else attn_implementation

pretrain_args = PretrainArguments()
# 加载训练好的tokenizer
tokenizer = PreTrainedTokenizerFast.from_pretrained(pretrain_args.tokenizer_dir)
# 词表大小修正
vocab_size = len(tokenizer)
if vocab_size % 64 != 0:
    vocab_size = (vocab_size // 64 + 1) * 64
# 如果词表大小小于 65535 用uint16存储，节省磁盘空间，否则用uint32存储
map_dtype = np.uint16 if vocab_size < 65535 else np.uint32

def token_to_id(samples: dict[str, list]) -> dict:
    batch_txt = samples['text']
    outputs = tokenizer(batch_txt, truncation=False, padding=False, return_attention_mask=False)
    input_ids = [np.array(item, dtype=map_dtype) for item in outputs["input_ids"]]
    return {"input_ids": input_ids}

# 加载数据集
def get_maped_dataset(files: str|list[str]) -> Dataset:
    dataset = load_dataset(path='parquet', data_files=files, split='train', cache_dir='.cache')
    maped_dataset = dataset.map(token_to_id, batched=True, batch_size=1_0000, remove_columns=dataset.column_names)
    return maped_dataset

train_dataset = get_maped_dataset(pretrain_args.train_files)
eval_dataset = get_maped_dataset(pretrain_args.eval_file)
# 定义data_collator。`mlm=False`表示要训练CLM模型，`mlm=True`表示要训练MLM模型
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

phi_config = PhiConfig(
    vocab_size=vocab_size,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    hidden_size=960,
    num_attention_heads=16,
    num_hidden_layers=24,
    max_position_embeddings=512,
    intermediate_size=4096,
    attn_implementation=pretrain_args.attn_implementation,
)
model = PhiForCausalLM(phi_config)

# 定义训练参数
my_trainer_callback = MyTrainerCallback() # cuda cache回调函数
args = TrainingArguments(
    output_dir=pretrain_args.model_save_dir, per_device_train_batch_size=4,
    gradient_accumulation_steps=32, num_train_epochs=4, weight_decay=0.1, 
    warmup_steps=1000, learning_rate=5e-4, evaluation_strategy='steps',
    eval_steps=2000, save_steps=2000, save_strategy='steps', save_total_limit=3,
    report_to='tensorboard', optim="adafactor", bf16=True, logging_steps=5,
    log_level='info', logging_first_step=True,
)
trainer = Trainer(model=model, tokenizer=tokenizer,args=args,
    data_collator=data_collator, train_dataset=train_dataset,
    eval_dataset=eval_dataset, callbacks=[my_trainer_callback],
)
trainer.train()
trainer.save_model(pretrain_args.model_save_dir)

这个代码和只要是使用Transformers库的Trainer大差不差。主要是，tokenizer和CausalLM模型的差别.

PhiConfig, PhiForCausalLM 变成

from transformers import LlamaConfig as PhiConfig
from transformers import LlamaForCausalLM as PhiForCausalLM

或:

from transformers import Qwen2Config as PhiConfig
from transformers import Qwen2ForCausalLM as PhiForCausalLM

就很随意的变成了其他模型的简单预训练了 .

关于训练数据构造，其中，DataCollatorForLanguageModeling:

注: get_maped_datasetget_maped_dataset的load_dataset没有加num_proc，导致加载速度慢，加以设置为核心数）。

这部分代码和我之前写一个篇基于transformers库训练GPT2大差不差： https://zhuanlan.zhihu.com/p/685851459 。

注: get_maped_datasetget_maped_dataset的load_dataset没有加num_proc，导致加载速度慢，加以设置为核心数）。

4、SFT代码

基本和预训练一致，唯一的不同就是，设置了output的标签。

import time
import pandas as pd
import numpy as np
import torch
from datasets import load_dataset
from transformers import PreTrainedTokenizerFast, PhiForCausalLM, TrainingArguments, Trainer, TrainerCallback
from trl import DataCollatorForCompletionOnlyLM

# 1. 定义训练数据，tokenizer，预训练模型的路径及最大长度
sft_file = './data/sft_train_data.parquet'
tokenizer_dir = './model_save/tokenizer/'
sft_from_checkpoint_file = './model_save/pre/'
model_save_dir = './model_save/sft/'
max_seq_len = 512

# 2. 加载训练数据集
dataset = load_dataset(path='parquet', data_files=sft_file, split='train', cache_dir='.cache')
tokenizer = PreTrainedTokenizerFast.from_pretrained(tokenizer_dir)
print(f"vicab size: {len(tokenizer)}")

# ## 2.1 定义sft data_collator的指令字符
# 也可以手动将`instruction_template_ids`和`response_template_ids`添加到input_ids中的，因为如果是byte level tokenizer可能将`:`和后面的字符合并，导致找不到`instruction_template_ids`和`response_template_ids`。 
# 也可以像下文一样通过在`'#'`和`':'`前后手动加`'\n'`解决

# %%
instruction_template = "##提问:"
response_template = "##回答:"

map_dtype = np.uint16 if len(tokenizer) < 65535 else np.uint32

def batched_formatting_prompts_func(example: list[dict]) -> list[str]:
    batch_txt = []
    for i in range(len(example['instruction'])):
        text = f"{instruction_template}\n{example['instruction'][i]}\n{response_template}\n{example['output'][i]}[EOS]"
        batch_txt.append(text)

    outputs = tokenizer(batch_txt, return_attention_mask=False)
    input_ids = [np.array(item, dtype=map_dtype) for item in outputs["input_ids"]]
    return {"input_ids": input_ids}

dataset = dataset.map(batched_formatting_prompts_func, batched=True, 
                        remove_columns=dataset.column_names).shuffle(23333)

# 2.2 定义data_collator
# 
data_collator = DataCollatorForCompletionOnlyLM(
  instruction_template=instruction_template, 
  response_template=response_template, 
  tokenizer=tokenizer, 
  mlm=False
)
empty_cuda_cahce = EmptyCudaCacheCallback()  ## 定义训练过程中的回调函数
my_datasets =  dataset.train_test_split(test_size=4096)

# 5. 定义训练参数
model = PhiForCausalLM.from_pretrained(sft_from_checkpoint_file)
args = TrainingArguments(
    output_dir=model_save_dir, per_device_train_batch_size=8, gradient_accumulation_steps=8,
    num_train_epochs=3, weight_decay=0.1, warmup_steps=1000, learning_rate=5e-5,
    evaluation_strategy='steps', eval_steps=2000, save_steps=2000, save_total_limit=3,
    report_to='tensorboard', optim="adafactor", bf16=True, logging_steps=10,
    log_level='info', logging_first_step=True, group_by_length=True,
)
trainer = Trainer(
    model=model, tokenizer=tokenizer, args=args, 
    data_collator=data_collator,
    train_dataset=my_datasets['train'], 
    eval_dataset=my_datasets['test'],
    callbacks=[empty_cuda_cahce],
)
trainer.train()
trainer.save_model(model_save_dir)

总之，虽然都是一套代码，但实际上一切的细节隐藏在： DataCollatorForLanguageModeling、Trainer、tokenizer和CausalLM的实现中。更底层的实在pytorch的实现中，不过一般不涉及框架内部的实现分析.

和huggingface的trl库的SFT example，唯一区别就是还是用的Trainer https://huggingface.co/docs/trl/main/en/sft_trainer#train-on-completions-only 。

其中，DataCollatorForCompletionOnlyLM会为指令微调式的补全式训练，自动构造样本:

You can use the DataCollatorForCompletionOnlyLM to train your model on the generated prompts only. Note that this works only in the case when packing=False. 。

对于指令微调式的instruction data, 实例化一个datacollator，传入一个输response的template 和tokenizer.

内部可以进行response部分的token ids的拆分，并指定为预测标签.

下面是HuggingFace官方的使用DataCollatorForCompletionOnlyLM+FTTrainer，进行指令微调的例子:

from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from trl import SFTConfig, SFTTrainer, DataCollatorForCompletionOnlyLM

dataset = load_dataset("timdettmers/openassistant-guanaco", split="train")
model = AutoModelForCausalLM.from_pretrained("facebook/opt-350m")
tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")

instruction_template = "### Human:"
response_template = "### Assistant:"
collator = DataCollatorForCompletionOnlyLM(instruction_template=instruction_template, response_template=response_template, tokenizer=tokenizer, mlm=False)

trainer = SFTTrainer(
    model,
    args=SFTConfig(
        output_dir="/tmp",
        dataset_text_field = "text",
    ),
    train_dataset=dataset,
    data_collator=collator,
)
trainer.train()

关于Trainer and SFTTrainer的区别，感觉区别不大 https://medium.com/@sujathamudadla1213/difference-between-trainer-class-and-sfttrainer-supervised-fine-tuning-trainer-in-hugging-face-d295344d73f7 。

5、DPO代码

import time
import pandas as pd
from typing import List, Optional, Dict
from dataclasses import dataclass, field
import torch 
from trl import DPOTrainer
from transformers import PreTrainedTokenizerFast, PhiForCausalLM, TrainingArguments, TrainerCallback
from datasets import load_dataset

# 1. 定义sft模型路径及dpo数据
dpo_file = './data/dpo_train_data.json'
tokenizer_dir = './model_save/tokenizer/'
sft_from_checkpoint_file = './model_save/sft/'
model_save_dir = './model_save/dpo/'
max_seq_len = 320

# 2. 加载数据集

# 数据集token格式化
# DPO数据格式：[prompt模型输入，chosen正例， rejected负例]
# 将dpo数据集三列数据添加上`eos`token，`bos`可加可不加
def split_prompt_and_responses(samples: dict[str, str]) -> Dict[str, str]:
    prompts, chosens, rejects = [], [], []
    batch_size = len(samples['prompt'])
    for i in range(batch_size):
        # add an eos token for signal that end of sentence, using in generate.
        prompts.append(f"[BOS]{samples['prompt'][i]}[EOS]")
        chosens.append(f"[BOS]{samples['chosen'][i]}[EOS]")
        rejects.append(f"[BOS]{samples['rejected'][i]}[EOS]")
    return {'prompt': prompts, 'chosen': chosens, 'rejected':rejects,}

tokenizer = PreTrainedTokenizerFast.from_pretrained(tokenizer_dir)
dataset = load_dataset(path='json', data_files=dpo_file, split='train', cache_dir='.cache')
dataset = dataset.map(split_prompt_and_responses, batched=True,).shuffle(2333)

# 4. 加载模型
# `model`和`model_ref`开始时是同一个模型，只训练`model`的参数，`model_ref`参数保存不变
model = PhiForCausalLM.from_pretrained(sft_from_checkpoint_file)
model_ref = PhiForCausalLM.from_pretrained(sft_from_checkpoint_file)

# 5. 定义训练中的回调函数
# 清空cuda缓存，dpo要加载两个模型，显存占用较大，这能有效缓解低显存机器显存缓慢增长的问题
class EmptyCudaCacheCallback(TrainerCallback):
    log_cnt = 0
    def on_log(self, args, state, control, logs=None, **kwargs):
        self.log_cnt += 1
        if self.log_cnt % 5 == 0:
            torch.cuda.empty_cache()
            
empty_cuda_cahce = EmptyCudaCacheCallback()

# 训练参数
args = TrainingArguments(
    output_dir=model_save_dir, per_device_train_batch_size=2, gradient_accumulation_steps=16,
    num_train_epochs=4, weight_decay=0.1, warmup_steps=1000, learning_rate=2e-5, save_steps=2000, save_total_limit=3, report_to='tensorboard', bf16=True, logging_steps=10, log_level='info',
    logging_first_step=True, optim="adafactor", remove_unused_columns=False, group_by_length=True,
)
trainer = DPOTrainer(
    model, model_ref, args=args, beta=0.1,
    train_dataset=dataset,tokenizer=tokenizer, callbacks=[empty_cuda_cahce],
    max_length=max_seq_len * 2 + 16, # 16 for eos bos
    max_prompt_length=max_seq_len,
)
trainer.train()
trainer.save_model(model_save_dir)

6、碎碎念

深入学习

使用transformers的Traniner以及trl库的训练代码基本上都差不多，因为transformers和trl都封装地很好了.

如何要略微深入细节，建议阅读或debug如下仓库。这两个仓库都是基于pytorch实现的:

https://github.com/DLLXW/baby-llama2-chinese/tree/main
https://github.com/jzhang38/TinyLlama/blob/main/pretrain/tinyllama.py

改进

这个项目就是基于Phi2-mini-Chinese，主要就是把phi2换成了qwen，然后直接使用qwen的tokenizer https://github.com/jiahe7ay/MINI_LLM/ 。

我这边尝试使用了transformers库把qwen2的抽出来，用于训练。其实，和直接用transformers的Qwen2LMModel没有区别.

感兴趣的可以替换任意主流模型，修改配置，其实也大差不差。这些代码主要是用于学习用途。只要有点时间，有点卡，不费什么力就可以弄点数据复现走完整个流程.

不过，要训练出的效果还可以的小规模LLM也并不简单.

如果您需要引用本文，请参考:

LeonYi. (Aug. 25, 2024). 《【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读》. 。

@online{title={【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读}, author={LeonYi}, year={2024}, month={Sep}, url={https://www.cnblogs.com/justLittleStar/p/18405618}, } 。

最后此篇关于【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读的文章就讲到这里了,如果你想了解更多关于【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：爬虫案例2-爬取视频的三种方式之一：requests篇(1)

java - WebService 项目 Java on Gradle 项目
我正在使用 NetBeans 开发 Java 中的 WebService，并使用 gradle 作为依赖管理。我找到了this article关于使用 gradle 开发 Web 项目。它使用 Gr
java - Gradle 生成 Eclipse 项目 EAR 项目
我正在将旧项目从 ant 迁移到 gradle(以使用其依赖项管理和构建功能)，并且在生成时遇到问题>eclipse 项目。今天的大问题是因为该项目有一些子项目被拆分成 war 和 jar 包部署到
c - *** 检测到 glibc *** 项目/调试/项目 : free():
我已经为这个错误苦苦挣扎了很长时间。如果有帮助的话，我会提供一些问题的快照。请指导我该怎么办？？？？在我看来，它看起来一团糟。 *** glibc detected *** /home/shivam/
java - Netbeans 不会在“项目”选项卡中显示 Web 项目
我在 Ubuntu 12.10 上运行 NetBeans 7.3。我正在学习 Java Web 开发类(class)，因此我有一个名为 jsage8 的项目，其中包含我为该类(class)所做的工作。
c# - 具有单元测试和模拟的开源 C# 项目(不是 MVC 项目)
我想知道 Codeplex、GitHub 等中是否有任何突出的项目是 C# 和 ASP.NET，甚至只是 C# API 与功能测试 (NUnit) 和模拟(RhinoMocks、NMock 等)。重
java - 项目 'X' 缺少必需的 Java 项目 : 'Y'
我创建了一个 Maven 项目，包装类型为“jar”，名为“Y”我已经完成了“Maven 安装”，并且可以在我的本地存储库中找到它.. 然后，我创建了另一个项目，包装类型为“war”，称为“X”。在这
android - 项目 'HelloFacebookSample' 缺少必需的 Java 项目 'facebook'
我一直在关注the instructions用于将 facebook SDK 集成到我的应用程序中。除了“helloFacebookSample”之外，我已经成功地编译并运行了所有给定的示例应用程序。
java - 既然已经有了 OpenJDK 项目，为什么我们还需要 Apache Harmony 项目
我想知道，为什么我们(Java 社区)需要 Apache Harmony 项目，而已经有了 OpenJDK 项目。两者不是都是在开源许可下发布的吗？最佳答案事实恰恰相反。 Harmony 的成立是
java - Jsoup 中的正则表达式适用于 java 项目，不适用于 Android 项目
我正在尝试使用 Jsoup HTML Parser 从网站获取缩略图 URL我需要提取所有以 60x60.jpg(或 png)结尾的 URL(所有缩略图 URL 都以此 URL 结尾) 问题是我让它在
android - 无法构建 android gradle 项目 - 对于 cordova 项目
我无法构建 gradle 项目，即使我编辑 gradle 属性，我也会收到以下错误: Error:(22, 1) A problem occurred evaluating root project
object - Swift - 在 NSArray 中插入对象/项目/添加对象/项目
我有这个代码: var NToDel:NSArray = [] var addInNToDelArray = "Test1 \ Test2" 如何在 NToDel:NSArray 中添加 addInN
javascript - 单击显示更多(按钮)后如何将主题列表限制为 5(项目)仅显示 3(项目)
如何在单击显示更多(按钮)后将主题列表限制为 5 个(项目)。还有 3(项目)，依此类推到列表末尾，然后它会显示显示更少(按钮)。例如:在 Udemy 过滤器选项中，当您点击查看更多按钮时，它仅显
android-studio - Flutter:如何导入现有的 Flutter 项目，作为 gradle 项目
如何将现有的 Flutter 项目导入为 gradle 项目？ “导入项目”向导要求 Gradle 主路径。我有 gradle，安装在我的系统中。但是这里需要设置什么(哪条路径)。这是我正在尝试的
java - IntelliJ - 将 Java 项目/模块转换为 Maven 项目/模块
我有一个关于 Bitbucket 的项目。只有源被提交。为了将项目检索到新机器上，我在 IntelliJ 中使用了 Version Control > Checkout from Ve
java - 设置一个 maven-web 项目(来自现有的 netbeans-maven-web 项目)
所以，我想更改我公司的一个项目，以使用一些与 IDE 无关的设置。我在使用 Tomcat 设置 Java 应用程序方面有非常少的经验(我几乎不记得它是如何工作的)。因此，为了帮助制作独立于 IDE
ios - 在 Swift 项目 (XCode 6.3) 中集成 Cocos2dx 项目
我有 2 个独立的项目，一个在 Cocos2dx v3.6 中，一个在 Swift 中。我想从 Swift 项目开始游戏。我该怎么做？我已经将整个 cocos2dx 项目复制到我的 Swift 项目
ios - 无法使用 CLI 构建 Cordova iOS 项目，但可以构建/运行 Xcode 项目
Cordova 绝对是新手。这些是我完成的步骤: checkout 现有项目运行cordova build ios 以上生成此构建错误: (node:10242) UnhandledPromiseR
javascript - 如何在单击特定 li 时隐藏所有 li 项目，并使用 jquery 在鼠标悬停时再次显示该项目下方的剩余 li 项目
我正在使用 JQuery 隐藏/显示 li。我的要求是，当我点击任何 li 时，它应该显示但隐藏所有其他 li 项目。当我将鼠标悬停在文本上时 'show all list item but don
java - 将 Eclipse java 项目(带有 java 源文件夹)转换为 gradle 项目
我想将我所有的java 项目(223 个项目)迁移到gradle 项目。我正在使用由 SpringSource STS 团队开发的 Gradle Eclipse 插件。目前，我所有的 java 项目
java - 我无法在 eclipse luna IDE 中创建新的 Web 项目(找不到创建新的 Web 项目)
我下载this Eclipse Luna ，对于 Java EE 开发人员，如描述中所见，它支持 Web 应用程序。我找不到 file -> new -> other -> web projects

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读

1、前言

Phi2-mini-Chinese简介

2、Tokenizer训练

3、预训练代码

4、SFT代码

5、DPO代码

6、碎碎念

深入学习

改进

首页

博学

6Ren·AI

商城

【LLM训练系列】从零开始训练大模型之Phi2-mini-Chinese项目解读

﻿1、前言

Phi2-mini-Chinese简介

2、Tokenizer训练

3、预训练代码

4、SFT代码

5、DPO代码

6、碎碎念

深入学习

改进

1、前言