- Java锁的逻辑(结合对象头和ObjectMonitor)
- 还在用饼状图?来瞧瞧这些炫酷的百分比可视化新图形(附代码实现)⛵
- 自动注册实体类到EntityFrameworkCore上下文,并适配ABP及ABPVNext
- 基于Sklearn机器学习代码实战
提供LoRA微调和全量参数微调代码,训练数据为 data/train_sft.csv ,验证数据为 data/dev_sft.csv ,数据格式为 "<s>Human: "+问题+"\n</s><s>Assistant: "+答案 。本文主要介绍Llama-2-7b模型LoRA微调以及4bit量化的实践过程. 1.LoRA微调脚本 LoRA微调脚本 train/sft/finetune_lora.sh 如下所示: 2.LoRA微调代码 LoRA微调具体实现代码 train/sft/finetune_clm_lora.py 参考文献[3]。这里要说明下HuggingFace开源的一个高效微调大模型的PEFT库,目前支持很多方法和模型,详见参考文献[4][5]。LoRA(Low-Rank Adaptation)的本质就是奇异值分解,使用包含矩阵能量的秩来近似和还原原始矩阵,这样就可以将平方复杂度转换为线性复杂度了。本人读研期间做了很长时间的概率矩阵分解,对此有所理解。核心代码如下所示: 3.加载LoRA微调模型 加载LoRA微调模型需要通过PEFT加载预训练模型参数和微调模型参数,base_model_name_or_path为预训练模型参数保存路径,finetune_model_path为微调模型参数保存路径。核心代码如下所示: 4.模型量化和加载方式 模型量化和LoRA微调具体实现代码 train/sft/finetune_clm_lora.py 参考文献[3]。修改 ModelArguments 类中的 load_in_bits: Optional[int] = field(default=4) 。本质上就是先对模型做量化,然后再LoRA微调。核心代码如下所示: 虽然LoRA微调和模型量化代码走通了,但是里面涉及到很多细节知识点需要深挖,比如LoRA具体代码实现[4][5][6],peft库支持微调方法( LoRA|Prefix Tuning|P-Tuning v1|P-Tuning v2|Prompt Tuning|AdaLoRA|LLaMA-Adapter|IA3 )和模型( Causal Language Modeling|Conditional Generation|Sequence Classification|Token Classification|Text-to-Image Generation|Image Classification|Image to text (Multi-modal models)|Semantic Segmentation )的具体代码实现[4][5],模型量化(混合精度训练、4bit、8bit、fp16、fp32、bf16、AutoGPTQ库和bitsandbytes库)等。不管怎样先实践起来,更高一层的实践才能够理解低一层的理论. 参考文献: [1]llama2 hf:https://huggingface.co/blog/llama2 [2]全参数微调时,报没有target_modules变量:https://github.com/FlagAlpha/Llama2-Chinese/issues/169 [3]finetune_clm_lora.py:https://github.com/ai408/nlp-engineering/blob/main/20230916_Llama2-Chinese/train/sft/finetune_clm_lora.py [4]peft github:https://github.com/huggingface/peft [5]peft hf:https://huggingface.co/docs/peft [6]LoRA论文:https://arxiv.org/pdf/2106.09685.pdf 。
output_model=save_folder
# 需要修改到自己的输入目录
if
[ ! -d
${output_model}
];
then
mkdir
${output_model}
fi
cp ./finetune.sh
${output_model}
CUDA_VISIBLE_DEVICES=0,1 deepspeed --num_gpus 2 finetune_clm_lora.py \
# 用于训练的脚本
--model_name_or_path meta-llama/Llama-2-7b-chat-hf \
# 预训练模型路径
--train_files ../../data/train_sft.csv \
# 训练数据
../../data/train_sft_sharegpt.csv \
# 训练数据
--validation_files ../../data/dev_sft.csv \
# 验证数据
../../data/dev_sft_sharegpt.csv \
# 验证数据
--per_device_train_batch_size 1 \
# 每个设备的训练批次大小
--per_device_eval_batch_size 1 \
# 每个设备的验证批次大小
--do_train \
# 是否训练
--do_eval \
# 是否验证
--use_fast_tokenizer
false
\
# 是否使用快速分词器
--output_dir
${output_model}
\
# 输出目录
--evaluation_strategy steps \
# 评估策略
--max_eval_samples 800 \
# 最大验证样本数
--learning_rate 1e-4 \
# 学习率
--gradient_accumulation_steps 8 \
# 梯度累积步数
--num_train_epochs 10 \
# 训练轮数
--warmup_steps 400 \
# 预热步数
--load_in_bits 4 \
# 加载位数
--lora_r 8 \
# lora_r表示秩的大小
--lora_alpha 32 \
# lora_alpha表示控制模型对原始预训练参数的更新程度
--target_modules q_proj,k_proj,v_proj,o_proj,down_proj,gate_proj,up_proj \
# 目标模块
--logging_dir
${output_model}
/logs \
# 日志目录
--logging_strategy steps \
# 日志策略
--logging_steps 10 \
# 日志步数
--save_strategy steps \
# 保存策略
--preprocessing_num_workers 10 \
# 预处理工作数
--save_steps 20 \
# 保存步数
--eval_steps 20 \
# 评估步数
--save_total_limit 2000 \
# 保存总数限制
--seed 42 \
# 种子
--disable_tqdm
false
\
# 禁用tqdm
--ddp_find_unused_parameters
false
\
# ddp_find_unused_parameters
--block_size 2048 \
# 块大小
--report_to tensorboard \
# 报告到tensorboard
--overwrite_output_dir \
# 覆盖输出目录
--deepspeed ds_config_zero2.json \
# deepspeed配置文件
--ignore_data_skip
true
\
# 忽略数据跳过
--bf16 \
# bf16
--gradient_checkpointing \
# 梯度检查点
--bf16_full_eval \
# bf16_full_eval
--ddp_timeout 18000000 \
# ddp_timeout
| tee -a
${output_model}
/train.log
# 日志输出
# --resume_from_checkpoint ${output_model}/checkpoint-20400 \ # 恢复检查点
# 步骤1:导入peft库中Lora相关模块
from peft import (
LoraConfig,
PeftModel,
get_peft_model,
get_peft_model_state_dict,
prepare_model_for_int8_training,
prepare_model_for_kbit_training,
set_peft_model_state_dict,
)
# 步骤2:lora配置
lora_config = LoraConfig(
# lora配置
r = model_args.lora_r,
# r表示秩
lora_alpha = model_args.lora_alpha,
# alpha表示缩放因子
# target_modules = ["query_key_value"], # 目标模块
# target_modules = ['q_proj', 'k_proj', 'v_proj', 'o_proj'], # 目标模块
target_modules = model_args.target_modules,
# 目标模块
fan_in_fan_out = False,
# 是否使用fan_in_fan_out
lora_dropout = 0.05,
# lora_dropout
inference_mode = False,
# 是否使用推理模式
bias =
"none"
,
# 偏置
task_type =
"CAUSAL_LM"
,
# 任务类型
)
# 步骤3:加载model
model = AutoModelForCausalLM.from_pretrained(
# 从预训练模型中加载模型
model_args.model_name_or_path,
# 模型名或路径
from_tf = bool(
".ckpt"
in
model_args.model_name_or_path),
# 是否从tensorflow加载
config = config,
# 配置
cache_dir = model_args.cache_dir,
# 缓存目录
revision = model_args.model_revision,
# 模型版本
use_auth_token = True
if
model_args.use_auth_token
else
None,
# 是否使用token
torch_dtype = torch_dtype,
# torch数据类型
device_map = {
""
: int(os.environ.get(
"LOCAL_RANK"
) or 0)}
# 设备映射
)
# 步骤4:获取peft模型
model = get_peft_model(model, lora_config)
# 步骤5:初始化Trainer
trainer = Trainer(
# 训练器
model = model,
# 模型
args = training_args,
# 训练参数
train_dataset = train_dataset
if
training_args.do_train
else
None,
# 训练数据集
eval_dataset = eval_dataset
if
training_args.do_eval
else
None,
# 评估数据集
tokenizer = tokenizer,
# tokenizer
# 数据收集器将默认为DataCollatorWithPadding,因此我们将其更改
data_collator = transformers.DataCollatorForSeq2Seq(
# 数据收集器
tokenizer, pad_to_multiple_of=8, return_tensors=
"pt"
, padding=True
# tokenizer,填充到8的倍数,返回张量,填充
),
compute_metrics=compute_metrics
if
training_args.do_eval and not is_torch_tpu_available()
else
None,
# 计算指标
preprocess_logits_for_metrics=preprocess_logits_for_metrics
if
training_args.do_eval and not is_torch_tpu_available()
else
None,
# 为指标预处理logits
callbacks=([SavePeftModelCallback]
if
isinstance(model, PeftModel)
else
None),
# 回调
)
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel,PeftConfig
# 例如: finetune_model_path='Llama2-Chinese-7b-LoRA'
finetune_model_path=
''
#微调模型参数保存路径
# 例如: base_model_name_or_path='meta-llama/Llama-2-7b'
base_model_name_or_path=
''
#为预训练模型参数保存路径
tokenizer = AutoTokenizer.from_pretrained(base_model_name_or_path,use_fast=False)
tokenizer.pad_token = tokenizer.eos_token
model = AutoModelForCausalLM.from_pretrained(base_model_name_or_path,device_map=
'auto'
,torch_dtype=torch.float16,load_in_8bit=True)
model = PeftModel.from_pretrained(model, finetune_model_path, device_map={
""
: 0})
model = model.eval()
input_ids = tokenizer([
'<s>Human: 介绍一下北京\n</s><s>Assistant: '
], return_tensors=
"pt"
,add_special_tokens=False).input_ids.to(
'cuda'
)
generate_input = {
"input_ids"
:input_ids,
"max_new_tokens"
:512,
"do_sample"
:True,
"top_k"
:50,
"top_p"
:0.95,
"temperature"
:0.3,
"repetition_penalty"
:1.3,
"eos_token_id"
:tokenizer.eos_token_id,
"bos_token_id"
:tokenizer.bos_token_id,
"pad_token_id"
:tokenizer.pad_token_id
}
generate_ids = model.generate(**generate_input)
text = tokenizer.decode(generate_ids[0])
print
(text)
# 步骤1:导入peft库中Lora相关模块
from peft import (
LoraConfig,
PeftModel,
get_peft_model,
get_peft_model_state_dict,
prepare_model_for_int8_training,
prepare_model_for_kbit_training,
set_peft_model_state_dict,
)
# 步骤2:导入transformers库中量化相关模块
from transformers import (
BitsAndBytesConfig,
)
# 步骤3:lora配置
lora_config = LoraConfig(
# lora配置
r = model_args.lora_r,
# r表示秩
lora_alpha = model_args.lora_alpha,
# alpha表示缩放因子
# target_modules = ["query_key_value"], # 目标模块
# target_modules = ['q_proj', 'k_proj', 'v_proj', 'o_proj'], # 目标模块
target_modules = model_args.target_modules,
# 目标模块
fan_in_fan_out = False,
# 是否使用fan_in_fan_out
lora_dropout = 0.05,
# lora_dropout
inference_mode = False,
# 是否使用推理模式
bias =
"none"
,
# 偏置
task_type =
"CAUSAL_LM"
,
# 任务类型
)
# 步骤4:bnb配置
bnb_config = BitsAndBytesConfig(
# bnb配置
load_in_4bit=True,
# 是否使用4bit
bnb_4bit_use_double_quant=True,
# 是否使用双量化
bnb_4bit_quant_type=
"nf4"
,
# 量化类型
bnb_4bit_compute_dtype=torch.bfloat16
# 计算类型
)
# 步骤5:加载model
model = AutoModelForCausalLM.from_pretrained(
# 从预训练模型中加载模型
model_args.model_name_or_path,
# 模型名或路径
from_tf = bool(
".ckpt"
in
model_args.model_name_or_path),
# 是否从tensorflow加载
config = config,
# 配置
cache_dir = model_args.cache_dir,
# 缓存目录
revision = model_args.model_revision,
# 模型版本
use_auth_token = True
if
model_args.use_auth_token
else
None,
# 是否使用token
torch_dtype = torch_dtype,
# torch数据类型
load_in_8bit = True
if
model_args.load_in_bits == 8
else
False,
# 是否使用8bit
quantization_config = bnb_config
if
model_args.load_in_bits == 4
else
None,
# 量化配置
device_map = {
""
: int(os.environ.get(
"LOCAL_RANK"
) or 0)}
# 设备映射
)
# 步骤6:准备模型进行kbit训练
model = prepare_model_for_kbit_training(model)
# 步骤7:获取peft模型
model = get_peft_model(model, lora_config)
# 步骤8:初始化Trainer
trainer = Trainer(
# 训练器
model = model,
# 模型
args = training_args,
# 训练参数
train_dataset = train_dataset
if
training_args.do_train
else
None,
# 训练数据集
eval_dataset = eval_dataset
if
training_args.do_eval
else
None,
# 评估数据集
tokenizer = tokenizer,
# tokenizer
# 数据收集器将默认为DataCollatorWithPadding,因此我们将其更改
data_collator = transformers.DataCollatorForSeq2Seq(
# 数据收集器
tokenizer, pad_to_multiple_of=8, return_tensors=
"pt"
, padding=True
# tokenizer,填充到8的倍数,返回张量,填充
),
compute_metrics=compute_metrics
if
training_args.do_eval and not is_torch_tpu_available()
else
None,
# 计算指标
preprocess_logits_for_metrics=preprocess_logits_for_metrics
if
training_args.do_eval and not is_torch_tpu_available()
else
None,
# 为指标预处理logits
callbacks=([SavePeftModelCallback]
if
isinstance(model, PeftModel)
else
None),
# 回调
)
最后此篇关于Llama2-Chinese项目:3.2-LoRA微调和模型量化的文章就讲到这里了,如果你想了解更多关于Llama2-Chinese项目:3.2-LoRA微调和模型量化的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
我正在使用 NetBeans 开发 Java 中的 WebService,并使用 gradle 作为依赖管理。 我找到了this article关于使用 gradle 开发 Web 项目。它使用 Gr
我正在将旧项目从 ant 迁移到 gradle(以使用其依赖项管理和构建功能),并且在生成 时遇到问题>eclipse 项目。今天的大问题是因为该项目有一些子项目被拆分成 war 和 jar 包部署到
我已经为这个错误苦苦挣扎了很长时间。如果有帮助的话,我会提供一些问题的快照。请指导我该怎么办????在我看来,它看起来一团糟。 *** glibc detected *** /home/shivam/
我在 Ubuntu 12.10 上运行 NetBeans 7.3。我正在学习 Java Web 开发类(class),因此我有一个名为 jsage8 的项目,其中包含我为该类(class)所做的工作。
我想知道 Codeplex、GitHub 等中是否有任何突出的项目是 C# 和 ASP.NET,甚至只是 C# API 与功能测试 (NUnit) 和模拟(RhinoMocks、NMock 等)。 重
我创建了一个 Maven 项目,包装类型为“jar”,名为“Y”我已经完成了“Maven 安装”,并且可以在我的本地存储库中找到它.. 然后,我创建了另一个项目,包装类型为“war”,称为“X”。在这
我一直在关注the instructions用于将 facebook SDK 集成到我的应用程序中。除了“helloFacebookSample”之外,我已经成功地编译并运行了所有给定的示例应用程序。
我想知道,为什么我们(Java 社区)需要 Apache Harmony 项目,而已经有了 OpenJDK 项目。两者不是都是在开源许可下发布的吗? 最佳答案 事实恰恰相反。 Harmony 的成立是
我正在尝试使用 Jsoup HTML Parser 从网站获取缩略图 URL我需要提取所有以 60x60.jpg(或 png)结尾的 URL(所有缩略图 URL 都以此 URL 结尾) 问题是我让它在
我无法构建 gradle 项目,即使我编辑 gradle 属性,我也会收到以下错误: Error:(22, 1) A problem occurred evaluating root project
我有这个代码: var NToDel:NSArray = [] var addInNToDelArray = "Test1 \ Test2" 如何在 NToDel:NSArray 中添加 addInN
如何在单击显示更多(按钮)后将主题列表限制为 5 个(项目)。 还有 3(项目),依此类推到列表末尾,然后它会显示显示更少(按钮)。 例如:在 Udemy 过滤器选项中,当您点击查看更多按钮时,它仅显
如何将现有的 Flutter 项目导入为 gradle 项目? “导入项目”向导要求 Gradle 主路径。 我有 gradle,安装在我的系统中。但是这里需要设置什么(哪条路径)。 这是我正在尝试的
我有一个关于 Bitbucket 的项目。只有源被提交。为了将项目检索到新机器上,我在 IntelliJ 中使用了 Version Control > Checkout from Ve
所以,我想更改我公司的一个项目,以使用一些与 IDE 无关的设置。我在使用 Tomcat 设置 Java 应用程序方面有非常少的经验(我几乎不记得它是如何工作的)。 因此,为了帮助制作独立于 IDE
我有 2 个独立的项目,一个在 Cocos2dx v3.6 中,一个在 Swift 中。我想从 Swift 项目开始游戏。我该怎么做? 我已经将整个 cocos2dx 项目复制到我的 Swift 项目
Cordova 绝对是新手。这些是我完成的步骤: checkout 现有项目 运行cordova build ios 以上生成此构建错误: (node:10242) UnhandledPromiseR
我正在使用 JQuery 隐藏/显示 li。我的要求是,当我点击任何 li 时,它应该显示但隐藏所有其他 li 项目。当我将鼠标悬停在文本上时 'show all list item but don
我想将我所有的java 项目(223 个项目)迁移到gradle 项目。我正在使用由 SpringSource STS 团队开发的 Gradle Eclipse 插件。 目前,我所有的 java 项目
我下载this Eclipse Luna ,对于 Java EE 开发人员,如描述中所见,它支持 Web 应用程序。我找不到 file -> new -> other -> web projects
我是一名优秀的程序员,十分优秀!