Llama2-Chinese项目：3.2-LoRA微调和模型量化-6ren

Llama2-Chinese项目：3.2-LoRA微调和模型量化

转载作者：我是一只小鸟更新时间：2023-10-02 07:01:59

提供LoRA微调和全量参数微调代码，训练数据为 data/train_sft.csv ，验证数据为 data/dev_sft.csv ，数据格式为 "<s>Human: "+问题+"\n</s><s>Assistant: "+答案。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程.

1.LoRA微调脚本 LoRA微调脚本 train/sft/finetune_lora.sh 如下所示:

                
                  output_model=save_folder
                  

                   # 需要修改到自己的输入目录 
                  

                   if 
                   [ ! -d 
                   ${output_model} 
                   ];
                   then 
                    
                  

                      mkdir 
                   ${output_model} 
                  

                   fi 
                  

                  cp ./finetune.sh 
                   ${output_model} 
                  

                  CUDA_VISIBLE_DEVICES=0,1 deepspeed --num_gpus 2  finetune_clm_lora.py \              
                   # 用于训练的脚本 
                  

                      --model_name_or_path meta-llama/Llama-2-7b-chat-hf \                             
                   # 预训练模型路径 
                  

                      --train_files ../../data/train_sft.csv \                                         
                   # 训练数据 
                  

                                  ../../data/train_sft_sharegpt.csv \                                  
                   # 训练数据 
                  

                      --validation_files  ../../data/dev_sft.csv \                                     
                   # 验证数据 
                  

                                           ../../data/dev_sft_sharegpt.csv \                           
                   # 验证数据 
                  

                      --per_device_train_batch_size 1 \                                                
                   # 每个设备的训练批次大小 
                  

                      --per_device_eval_batch_size 1 \                                                 
                   # 每个设备的验证批次大小 
                  

                      --do_train \                                                                     
                   # 是否训练 
                  

                      --do_eval \                                                                      
                   # 是否验证 
                  

                      --use_fast_tokenizer 
                   false 
                   \                                                     
                   # 是否使用快速分词器 
                  

                      --output_dir 
                   ${output_model} 
                   \                                                   
                   # 输出目录 
                  

                      --evaluation_strategy  steps \                                                   
                   # 评估策略 
                  

                      --max_eval_samples 800 \                                                         
                   # 最大验证样本数 
                  

                      --learning_rate 1e-4 \                                                           
                   # 学习率 
                  

                      --gradient_accumulation_steps 8 \                                                
                   # 梯度累积步数 
                  

                      --num_train_epochs 10 \                                                          
                   # 训练轮数 
                  

                      --warmup_steps 400 \                                                             
                   # 预热步数 
                  

                      --load_in_bits 4 \                                                               
                   # 加载位数 
                  

                      --lora_r 8 \                                                                     
                   # lora_r表示秩的大小 
                  

                      --lora_alpha 32 \                                                                
                   # lora_alpha表示控制模型对原始预训练参数的更新程度 
                  

                      --target_modules q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj \       
                   # 目标模块 
                  

                      --logging_dir 
                   ${output_model} 
                  /logs \                                             
                   # 日志目录 
                  

                      --logging_strategy steps \                                                       
                   # 日志策略 
                  

                      --logging_steps 10 \                                                             
                   # 日志步数 
                  

                      --save_strategy steps \                                                          
                   # 保存策略 
                  

                      --preprocessing_num_workers 10 \                                                 
                   # 预处理工作数 
                  

                      --save_steps 20 \                                                                
                   # 保存步数 
                  

                      --eval_steps 20 \                                                                
                   # 评估步数 
                  

                      --save_total_limit 2000 \                                                        
                   # 保存总数限制 
                  

                      --seed 42 \                                                                      
                   # 种子 
                  

                      --disable_tqdm 
                   false 
                   \                                                           
                   # 禁用tqdm 
                  

                      --ddp_find_unused_parameters 
                   false 
                   \                                             
                   # ddp_find_unused_parameters 
                  

                      --block_size 2048 \                                                              
                   # 块大小 
                  

                      --report_to tensorboard \                                                        
                   # 报告到tensorboard 
                  

                      --overwrite_output_dir \                                                         
                   # 覆盖输出目录 
                  

                      --deepspeed ds_config_zero2.json \                                               
                   # deepspeed配置文件 
                  

                      --ignore_data_skip 
                   true 
                   \                                                        
                   # 忽略数据跳过 
                  

                      --bf16 \                                                                         
                   # bf16 
                  

                      --gradient_checkpointing \                                                       
                   # 梯度检查点 
                  

                      --bf16_full_eval \                                                               
                   # bf16_full_eval 
                  

                      --ddp_timeout 18000000 \                                                         
                   # ddp_timeout 
                  

                      | tee -a 
                   ${output_model} 
                  /train.log                                               
                   # 日志输出 
                  

                  

                      
                   # --resume_from_checkpoint ${output_model}/checkpoint-20400 \                    # 恢复检查点

2.LoRA微调代码 LoRA微调具体实现代码 train/sft/finetune_clm_lora.py 参考文献[3]。这里要说明下HuggingFace开源的一个高效微调大模型的PEFT库，目前支持很多方法和模型，详见参考文献[4][5]。LoRA（Low-Rank Adaptation）的本质就是奇异值分解，使用包含矩阵能量的秩来近似和还原原始矩阵，这样就可以将平方复杂度转换为线性复杂度了。本人读研期间做了很长时间的概率矩阵分解，对此有所理解。核心代码如下所示:

                
                   # 步骤1：导入peft库中Lora相关模块 
                  

                  from peft import (
                  

                      LoraConfig,
                  

                      PeftModel,
                  

                      get_peft_model,
                  

                      get_peft_model_state_dict,
                  

                      prepare_model_for_int8_training,
                  

                      prepare_model_for_kbit_training,
                  

                      set_peft_model_state_dict,
                  

                  )
                  

                  

                   # 步骤2：lora配置 
                  

                  lora_config = LoraConfig(  
                   # lora配置 
                  

                          r = model_args.lora_r,  
                   # r表示秩 
                  

                          lora_alpha = model_args.lora_alpha,  
                   # alpha表示缩放因子 
                  

                          
                   # target_modules = ["query_key_value"], # 目标模块 
                  

                          
                   # target_modules =  ['q_proj', 'k_proj', 'v_proj', 'o_proj'], # 目标模块 
                  

                          target_modules = model_args.target_modules,  
                   # 目标模块 
                  

                          fan_in_fan_out = False,  
                   # 是否使用fan_in_fan_out 
                  

                          lora_dropout = 0.05,  
                   # lora_dropout 
                  

                          inference_mode = False,  
                   # 是否使用推理模式 
                  

                          bias = 
                   "none" 
                  ,  
                   # 偏置 
                  

                          task_type = 
                   "CAUSAL_LM" 
                  ,  
                   # 任务类型 
                  

                      )
                  

                  

                   # 步骤3：加载model 
                  

                  model = AutoModelForCausalLM.from_pretrained( 
                   # 从预训练模型中加载模型 
                  

                      model_args.model_name_or_path, 
                   # 模型名或路径 
                  

                      from_tf = bool(
                   ".ckpt" 
                   
                   in 
                   model_args.model_name_or_path), 
                   # 是否从tensorflow加载 
                  

                      config = config, 
                   # 配置 
                  

                      cache_dir = model_args.cache_dir, 
                   # 缓存目录 
                  

                      revision = model_args.model_revision, 
                   # 模型版本 
                  

                      use_auth_token = True 
                   if 
                   model_args.use_auth_token 
                   else 
                   None, 
                   # 是否使用token 
                  

                      torch_dtype = torch_dtype, 
                   # torch数据类型 
                  

                      device_map = {
                   "" 
                  : int(os.environ.get(
                   "LOCAL_RANK" 
                  ) or 0)} 
                   # 设备映射 
                  

                  )
                  

                  

                   # 步骤4：获取peft模型 
                  

                  model = get_peft_model(model, lora_config)
                  

                  

                   # 步骤5：初始化Trainer 
                  

                  trainer = Trainer( 
                   # 训练器 
                  

                      model = model, 
                   # 模型 
                  

                      args = training_args, 
                   # 训练参数 
                  

                      train_dataset = train_dataset 
                   if 
                   training_args.do_train 
                   else 
                   None, 
                   # 训练数据集 
                  

                      eval_dataset = eval_dataset 
                   if 
                   training_args.do_eval 
                   else 
                   None, 
                   # 评估数据集 
                  

                      tokenizer = tokenizer, 
                   # tokenizer 
                  

                      
                   # 数据收集器将默认为DataCollatorWithPadding，因此我们将其更改 
                  

                      data_collator = transformers.DataCollatorForSeq2Seq( 
                   # 数据收集器 
                  

                          tokenizer, pad_to_multiple_of=8, return_tensors=
                   "pt" 
                  , padding=True 
                   # tokenizer，填充到8的倍数，返回张量，填充 
                  

                      ),
                  

                      compute_metrics=compute_metrics 
                   if 
                   training_args.do_eval and not is_torch_tpu_available() 
                   else 
                   None, 
                   # 计算指标 
                  

                      preprocess_logits_for_metrics=preprocess_logits_for_metrics 
                   if 
                   training_args.do_eval and not is_torch_tpu_available() 
                   else 
                   None, 
                   # 为指标预处理logits 
                  

                      callbacks=([SavePeftModelCallback] 
                   if 
                   isinstance(model, PeftModel) 
                   else 
                   None), 
                   # 回调 
                  

                  )

3.加载LoRA微调模型加载LoRA微调模型需要通过PEFT加载预训练模型参数和微调模型参数，base_model_name_or_path为预训练模型参数保存路径，finetune_model_path为微调模型参数保存路径。核心代码如下所示:

                
                  import torch
                  

                  from transformers import AutoTokenizer, AutoModelForCausalLM
                  

                  from peft import PeftModel,PeftConfig
                  

                  

                   # 例如: finetune_model_path='Llama2-Chinese-7b-LoRA' 
                  

                  finetune_model_path=
                   '' 
                   
                   #微调模型参数保存路径 
                  

                  

                   # 例如: base_model_name_or_path='meta-llama/Llama-2-7b' 
                  

                  base_model_name_or_path=
                   '' 
                   
                   #为预训练模型参数保存路径 
                  

                  

                  tokenizer = AutoTokenizer.from_pretrained(base_model_name_or_path,use_fast=False)
                  

                  tokenizer.pad_token = tokenizer.eos_token
                  

                  model = AutoModelForCausalLM.from_pretrained(base_model_name_or_path,device_map=
                   'auto' 
                  ,torch_dtype=torch.float16,load_in_8bit=True)
                  

                  

                  model = PeftModel.from_pretrained(model, finetune_model_path, device_map={
                   "" 
                  : 0})
                  

                  model = model.eval()
                  

                  input_ids = tokenizer([
                   '<s>Human: 介绍一下北京\n</s><s>Assistant: ' 
                  ], return_tensors=
                   "pt" 
                  ,add_special_tokens=False).input_ids.to(
                   'cuda' 
                  )
                  

                  generate_input = {
                  

                      
                   "input_ids" 
                  :input_ids,
                  

                      
                   "max_new_tokens" 
                  :512,
                  

                      
                   "do_sample" 
                  :True,
                  

                      
                   "top_k" 
                  :50,
                  

                      
                   "top_p" 
                  :0.95,
                  

                      
                   "temperature" 
                  :0.3,
                  

                      
                   "repetition_penalty" 
                  :1.3,
                  

                      
                   "eos_token_id" 
                  :tokenizer.eos_token_id,
                  

                      
                   "bos_token_id" 
                  :tokenizer.bos_token_id,
                  

                      
                   "pad_token_id" 
                  :tokenizer.pad_token_id
                  

                  }
                  

                  generate_ids = model.generate(**generate_input)
                  

                  text = tokenizer.decode(generate_ids[0])
                  

                   print 
                  (text)

4.模型量化和加载方式模型量化和LoRA微调具体实现代码 train/sft/finetune_clm_lora.py 参考文献[3]。修改 ModelArguments 类中的 load_in_bits: Optional[int] = field(default=4) 。本质上就是先对模型做量化，然后再LoRA微调。核心代码如下所示:

                
                   # 步骤1：导入peft库中Lora相关模块 
                  

                  from peft import (
                  

                      LoraConfig,
                  

                      PeftModel,
                  

                      get_peft_model,
                  

                      get_peft_model_state_dict,
                  

                      prepare_model_for_int8_training,
                  

                      prepare_model_for_kbit_training,
                  

                      set_peft_model_state_dict,
                  

                  )
                  

                  

                   # 步骤2：导入transformers库中量化相关模块 
                  

                  from transformers import (
                  

                      BitsAndBytesConfig,
                  

                  )
                  

                  

                   # 步骤3：lora配置 
                  

                  lora_config = LoraConfig(  
                   # lora配置 
                  

                          r = model_args.lora_r,  
                   # r表示秩 
                  

                          lora_alpha = model_args.lora_alpha,  
                   # alpha表示缩放因子 
                  

                          
                   # target_modules = ["query_key_value"], # 目标模块 
                  

                          
                   # target_modules =  ['q_proj', 'k_proj', 'v_proj', 'o_proj'], # 目标模块 
                  

                          target_modules = model_args.target_modules,  
                   # 目标模块 
                  

                          fan_in_fan_out = False,  
                   # 是否使用fan_in_fan_out 
                  

                          lora_dropout = 0.05,  
                   # lora_dropout 
                  

                          inference_mode = False,  
                   # 是否使用推理模式 
                  

                          bias = 
                   "none" 
                  ,  
                   # 偏置 
                  

                          task_type = 
                   "CAUSAL_LM" 
                  ,  
                   # 任务类型 
                  

                      )
                  

                  

                   # 步骤4：bnb配置 
                  

                  bnb_config = BitsAndBytesConfig(  
                   # bnb配置 
                  

                          load_in_4bit=True,  
                   # 是否使用4bit 
                  

                          bnb_4bit_use_double_quant=True,  
                   # 是否使用双量化 
                  

                          bnb_4bit_quant_type=
                   "nf4" 
                  ,  
                   # 量化类型 
                  

                          bnb_4bit_compute_dtype=torch.bfloat16  
                   # 计算类型 
                  

                      )
                  

                  

                   # 步骤5：加载model 
                  

                  model = AutoModelForCausalLM.from_pretrained( 
                   # 从预训练模型中加载模型 
                  

                      model_args.model_name_or_path, 
                   # 模型名或路径 
                  

                      from_tf = bool(
                   ".ckpt" 
                   
                   in 
                   model_args.model_name_or_path), 
                   # 是否从tensorflow加载 
                  

                      config = config, 
                   # 配置 
                  

                      cache_dir = model_args.cache_dir, 
                   # 缓存目录 
                  

                      revision = model_args.model_revision, 
                   # 模型版本 
                  

                      use_auth_token = True 
                   if 
                   model_args.use_auth_token 
                   else 
                   None, 
                   # 是否使用token 
                  

                      torch_dtype = torch_dtype, 
                   # torch数据类型 
                  

                      load_in_8bit = True 
                   if 
                   model_args.load_in_bits == 8 
                   else 
                   False, 
                   # 是否使用8bit 
                  

                      quantization_config = bnb_config 
                   if 
                   model_args.load_in_bits == 4 
                   else 
                   None, 
                   # 量化配置 
                  

                      device_map = {
                   "" 
                  : int(os.environ.get(
                   "LOCAL_RANK" 
                  ) or 0)} 
                   # 设备映射 
                  

                  )
                  

                  

                   # 步骤6：准备模型进行kbit训练 
                  

                  model = prepare_model_for_kbit_training(model) 
                  

                  

                   # 步骤7：获取peft模型 
                  

                  model = get_peft_model(model, lora_config)
                  

                  

                   # 步骤8：初始化Trainer 
                  

                  trainer = Trainer( 
                   # 训练器 
                  

                      model = model, 
                   # 模型 
                  

                      args = training_args, 
                   # 训练参数 
                  

                      train_dataset = train_dataset 
                   if 
                   training_args.do_train 
                   else 
                   None, 
                   # 训练数据集 
                  

                      eval_dataset = eval_dataset 
                   if 
                   training_args.do_eval 
                   else 
                   None, 
                   # 评估数据集 
                  

                      tokenizer = tokenizer, 
                   # tokenizer 
                  

                      
                   # 数据收集器将默认为DataCollatorWithPadding，因此我们将其更改 
                  

                      data_collator = transformers.DataCollatorForSeq2Seq( 
                   # 数据收集器 
                  

                          tokenizer, pad_to_multiple_of=8, return_tensors=
                   "pt" 
                  , padding=True 
                   # tokenizer，填充到8的倍数，返回张量，填充 
                  

                      ),
                  

                      compute_metrics=compute_metrics 
                   if 
                   training_args.do_eval and not is_torch_tpu_available() 
                   else 
                   None, 
                   # 计算指标 
                  

                      preprocess_logits_for_metrics=preprocess_logits_for_metrics 
                   if 
                   training_args.do_eval and not is_torch_tpu_available() 
                   else 
                   None, 
                   # 为指标预处理logits 
                  

                      callbacks=([SavePeftModelCallback] 
                   if 
                   isinstance(model, PeftModel) 
                   else 
                   None), 
                   # 回调 
                  

                  )

参考文献： [1]llama2 hf：https://huggingface.co/blog/llama2 [2]全参数微调时，报没有target_modules变量：https://github.com/FlagAlpha/Llama2-Chinese/issues/169 [3]finetune_clm_lora.py：https://github.com/ai408/nlp-engineering/blob/main/20230916_Llama2-Chinese/train/sft/finetune_clm_lora.py [4]peft github：https://github.com/huggingface/peft [5]peft hf：https://huggingface.co/docs/peft [6]LoRA论文：https://arxiv.org/pdf/2106.09685.pdf 。

最后此篇关于Llama2-Chinese项目：3.2-LoRA微调和模型量化的文章就讲到这里了,如果你想了解更多关于Llama2-Chinese项目：3.2-LoRA微调和模型量化的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： Vue框架快速上手

文章推荐： 5.go语言函数提纲

文章推荐： pandas--DataFrame的级联以及合并操作

文章推荐： salesforce零基础学习（一百三十二）Flow新功能：CustomError

java - WebService 项目 Java on Gradle 项目
我正在使用 NetBeans 开发 Java 中的 WebService，并使用 gradle 作为依赖管理。我找到了this article关于使用 gradle 开发 Web 项目。它使用 Gr
java - Gradle 生成 Eclipse 项目 EAR 项目
我正在将旧项目从 ant 迁移到 gradle(以使用其依赖项管理和构建功能)，并且在生成时遇到问题>eclipse 项目。今天的大问题是因为该项目有一些子项目被拆分成 war 和 jar 包部署到
c - *** 检测到 glibc *** 项目/调试/项目 : free():
我已经为这个错误苦苦挣扎了很长时间。如果有帮助的话，我会提供一些问题的快照。请指导我该怎么办？？？？在我看来，它看起来一团糟。 *** glibc detected *** /home/shivam/
java - Netbeans 不会在“项目”选项卡中显示 Web 项目
我在 Ubuntu 12.10 上运行 NetBeans 7.3。我正在学习 Java Web 开发类(class)，因此我有一个名为 jsage8 的项目，其中包含我为该类(class)所做的工作。
c# - 具有单元测试和模拟的开源 C# 项目(不是 MVC 项目)
我想知道 Codeplex、GitHub 等中是否有任何突出的项目是 C# 和 ASP.NET，甚至只是 C# API 与功能测试 (NUnit) 和模拟(RhinoMocks、NMock 等)。重
java - 项目 'X' 缺少必需的 Java 项目 : 'Y'
我创建了一个 Maven 项目，包装类型为“jar”，名为“Y”我已经完成了“Maven 安装”，并且可以在我的本地存储库中找到它.. 然后，我创建了另一个项目，包装类型为“war”，称为“X”。在这
android - 项目 'HelloFacebookSample' 缺少必需的 Java 项目 'facebook'
我一直在关注the instructions用于将 facebook SDK 集成到我的应用程序中。除了“helloFacebookSample”之外，我已经成功地编译并运行了所有给定的示例应用程序。
java - 既然已经有了 OpenJDK 项目，为什么我们还需要 Apache Harmony 项目
我想知道，为什么我们(Java 社区)需要 Apache Harmony 项目，而已经有了 OpenJDK 项目。两者不是都是在开源许可下发布的吗？最佳答案事实恰恰相反。 Harmony 的成立是
java - Jsoup 中的正则表达式适用于 java 项目，不适用于 Android 项目
我正在尝试使用 Jsoup HTML Parser 从网站获取缩略图 URL我需要提取所有以 60x60.jpg(或 png)结尾的 URL(所有缩略图 URL 都以此 URL 结尾) 问题是我让它在
android - 无法构建 android gradle 项目 - 对于 cordova 项目
我无法构建 gradle 项目，即使我编辑 gradle 属性，我也会收到以下错误: Error:(22, 1) A problem occurred evaluating root project
object - Swift - 在 NSArray 中插入对象/项目/添加对象/项目
我有这个代码: var NToDel:NSArray = [] var addInNToDelArray = "Test1 \ Test2" 如何在 NToDel:NSArray 中添加 addInN
javascript - 单击显示更多(按钮)后如何将主题列表限制为 5(项目)仅显示 3(项目)
如何在单击显示更多(按钮)后将主题列表限制为 5 个(项目)。还有 3(项目)，依此类推到列表末尾，然后它会显示显示更少(按钮)。例如:在 Udemy 过滤器选项中，当您点击查看更多按钮时，它仅显
android-studio - Flutter:如何导入现有的 Flutter 项目，作为 gradle 项目
如何将现有的 Flutter 项目导入为 gradle 项目？ “导入项目”向导要求 Gradle 主路径。我有 gradle，安装在我的系统中。但是这里需要设置什么(哪条路径)。这是我正在尝试的
java - IntelliJ - 将 Java 项目/模块转换为 Maven 项目/模块
我有一个关于 Bitbucket 的项目。只有源被提交。为了将项目检索到新机器上，我在 IntelliJ 中使用了 Version Control > Checkout from Ve
java - 设置一个 maven-web 项目(来自现有的 netbeans-maven-web 项目)
所以，我想更改我公司的一个项目，以使用一些与 IDE 无关的设置。我在使用 Tomcat 设置 Java 应用程序方面有非常少的经验(我几乎不记得它是如何工作的)。因此，为了帮助制作独立于 IDE
ios - 在 Swift 项目 (XCode 6.3) 中集成 Cocos2dx 项目
我有 2 个独立的项目，一个在 Cocos2dx v3.6 中，一个在 Swift 中。我想从 Swift 项目开始游戏。我该怎么做？我已经将整个 cocos2dx 项目复制到我的 Swift 项目
ios - 无法使用 CLI 构建 Cordova iOS 项目，但可以构建/运行 Xcode 项目
Cordova 绝对是新手。这些是我完成的步骤: checkout 现有项目运行cordova build ios 以上生成此构建错误: (node:10242) UnhandledPromiseR
javascript - 如何在单击特定 li 时隐藏所有 li 项目，并使用 jquery 在鼠标悬停时再次显示该项目下方的剩余 li 项目
我正在使用 JQuery 隐藏/显示 li。我的要求是，当我点击任何 li 时，它应该显示但隐藏所有其他 li 项目。当我将鼠标悬停在文本上时 'show all list item but don
java - 将 Eclipse java 项目(带有 java 源文件夹)转换为 gradle 项目
我想将我所有的java 项目(223 个项目)迁移到gradle 项目。我正在使用由 SpringSource STS 团队开发的 Gradle Eclipse 插件。目前，我所有的 java 项目
java - 我无法在 eclipse luna IDE 中创建新的 Web 项目(找不到创建新的 Web 项目)
我下载this Eclipse Luna ，对于 Java EE 开发人员，如描述中所见，它支持 Web 应用程序。我找不到 file -> new -> other -> web projects

我是一只小鸟

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Llama2-Chinese项目：3.2-LoRA微调和模型量化