- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在图像分类任务的自定义数据集上微调 Mobilenet_v2_1.4_224 模型。我正在关注本教程TensorFlow-Slim image classification library 。我已经创建了 .tfrecord 训练和验证文件。当我尝试从现有检查点进行微调时,出现以下错误:
InvalidArgumentError (see above for traceback): Assign requires shapes of both tensors to match. lhs shape= [1,1,24,144] rhs shape= [1,1,32,192] [[Node: save/Assign_149 = Assign[T=DT_FLOAT, _class=["loc:@MobilenetV2/expanded_conv_2/expand/weights"], use_locking=true, validate_shape=true, _device="/job:localhost/replica:0/task:0/device:CPU:0"](MobilenetV2/expanded_conv_2/expand/weights, save/RestoreV2:149)]]
我使用的微调脚本是:
DATASET_DIR=G:\数据集
TRAIN_DIR=G:\Dataset\emotion-models\mobilenet_v2
CHECKPOINT_PATH=C:\Users\lenovo\Desktop\mobilenet_v2\mobilenet_v2_1.4_224.ckpt
python train_image_classifier.py \
--train_dir=${TRAIN_DIR} \
--dataset_dir=${DATASET_DIR} \
--dataset_name=emotion \
--dataset_split_name=train \
--model_name=mobilenet_v2 \
--train_image_size=224 \
--clone_on_cpu=True \
--checkpoint_path=${CHECKPOINT_PATH} \
--checkpoint_exclude_scopes=MobilenetV2/Logits \
--trainable_scopes=MobilenetV2/Logits
我怀疑该错误是由于最后两个参数“checkpoint_exclude_scopes”或“trainable_scopes”造成的。
我知道这两个参数用于通过删除最后 2 层并为自定义数据集分类创建我们自己的 softmax 层来进行迁移学习。但我不确定我是否为它们传递了正确的值。
最佳答案
要重新训练模型,您必须微调自定义的类数
MobilenetV2/Predictions and MobilenetV2/predics
--checkpoint_exclude_scopes=MobilenetV2/Logits,MobilenetV2/Predictions,MobilenetV2/predics \
--trainable_scopes=MobilenetV2/Logits,MobilenetV2/Predictions,MobilenetV2/predics \
在 mobilenet_v2.py 中,对于 mobilenet 和 mobilenet_base,depth_multiplier=1,您应该将其更改为 1.4
@slim.add_arg_scope
def mobilenet_base(input_tensor, depth_multiplier=1.4, **kwargs):
"""Creates base of the mobilenet (no pooling and no logits) ."""
return mobilenet(input_tensor,
depth_multiplier=depth_multiplier,
base_only=True, **kwargs)
@slim.add_arg_scope
def mobilenet(input_tensor,
num_classes=1001,
depth_multiplier=1.4,
scope='MobilenetV2',
conv_defs=None,
finegrain_classification_mode=False,
min_depth=None,
divisible_by=None,
**kwargs):
关于python - TF超薄: Fine Tune mobilenet v2 on custom dataset,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49680440/
这一章我们介绍在下游任务微调中固定LM参数,只微调Prompt的相关模型。这类模型的优势很直观就是微调的参数量小,能大幅降低LLM的微调参数量,是轻量级的微调替代品。和前两章微调LM和全部冻结的pr
LLM微调方法(Efficient-Tuning)六大主流方法:思路讲解&优缺点对比[P-tuning、Lora、Prefix tuing等] 由于LLM参数量都是在亿级以上,少则数十亿,多
微调 API 中关于 model 属性的 OpenAI 文档说明有点令人困惑: model The name of the base model to fine-tune. You can selec
微调 API 中关于 model 属性的 OpenAI 文档说明有点令人困惑: model The name of the base model to fine-tune. You can selec
我正在尝试使用带有调整网格的 Caret 创建模型 svmGrid up_inside Support Vector Machines with Linear Kernel 100 samples
当涉及到语言模型(LLM)的教学微调时,什么时候应该选择有监督的微调培训器(SFTTrainer)而不是常规的Transformers培训器?据我所知,常规的Transformers培训人员通常指的是
RHEL/CentOS 在 6.3 版本以后引入了一套新的系统调优工具 tuned/tuned-adm,其中 tuned 是服务端程序,用来监控和收集系统各个组件的数据,并依据数据提供的信息动态调整
关闭。这个问题需要debugging details .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 2年前关闭。 Improve this questio
我有一个大约 4MB 的文件,该文件是一个仅包含普通键盘字符的 ascii 文件。我尝试了 java.io 包中的许多类来将文件内容读取为字符串。逐个字符地读取它们(使用 FileReader 和 B
之一: torchvision 中包含了很多预训练好的模型,这样就使得 fine-tune 非常容易。本文主要介绍如何 fine-tune torchvision 中预训练好的模型。 安装
有没有办法停止ray.tune实验(例如使用 PBT)当明显过度拟合或一个指标长时间没有改善时? 最佳答案 现在,这在 Tune 中得到了很好的支持,https://github.com/ray-pr
构建 LINQ 表达式(对我来说,是 linq to object)时,有很多方法可以完成某件事,其中一些方法比其他方法更好、更高效。 有没有好的方法来“调整”或优化这些表达式? 人们采用哪些基本指标
我正在尝试保存一个经过微调的 bert 模型。我已经正确运行了代码 - 它工作正常,并且在 ipython 控制台中我可以调用 getPrediction 并让它产生结果。 我已保存体重文件(最高的是
我有这样的查询。 SELECT count(*) FROM table1 e WHERE e.column1=1 AND e.id IN (SELECT MAX(ID) FROM
我在 node.js 上使用 ffmpeg。并选择“-tune Zerolatency”以实现低延迟 但是当我插入“-tune Zerolatency”时,出现错误:无法识别的选项“tune”。 有人
我目前正在训练 CNN 来对波进行分类。虽然代码运行完美,但用于超参数调整的 GridSearchCV 无法按预期工作。我很困惑,因为我在 MLP 中使用了类似的代码来调整超参数,而且效果很好。这是完
我的应用程序在我的 iPad 上运行。但它的表现非常糟糕——我的速度低于 15fps。谁能帮我优化一下? 它基本上是一个轮子(派生自 UIView),包含 12 个按钮(派生自 UIControl)。
SQL Turning 是Quest公司出品的Quest Central软件中的一个工具。Quest Central是一款集成化、图形化、跨平台的数据库管理解决方案,可以同时管理 Oracle、DB
让事件记录在开发环境中对所有查询使用 SQL_NO_CACHE 的简单方法是什么? 我想优化最坏情况加载时间的语句。希望这样做是有意义的,但是我在第一页命中时查询非常慢,而下次所有查询都非常快,因为服
我有一个电子邮件数据集,我正在使用 SVM 来确定电子邮件是否是垃圾邮件 我将数据集分为测试和训练,然后随机挑选了一组 500 条记录来调整 svm。我正在使用 RBF 内核。以下是原始数据 make
我是一名优秀的程序员,十分优秀!