- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
微调 API 中关于 model
属性的 OpenAI 文档说明有点令人困惑:
model
The name of the base model to fine-tune. You can select one of "ada", "babbage", "curie", "davinci", or a fine-tuned model created after 2022-04-21.
我的问题:微调基础模型好还是微调模型好?
我使用文件 mydata1K.jsonl
从 ada
创建了一个微调模型:
ada + mydata1K.jsonl --> ada:ft-acme-inc-2022-06-25
现在我有一个更大的示例文件 mydata2K.jsonl
,我想用它来改进微调模型。在这第二轮微调中,是再次微调 ada
还是微调我的微调模型 ada:ft-acme-inc-2022-06- 25
?我假设这是可能的,因为我的微调模型是在 2022 年 4 月 21 日之后创建的。
ada + mydata2K.jsonl --> better-model
或
ada:ft-acme-inc-2022-06-25 + mydata2K.jsonl --> even-better-model?
最佳答案
如果您阅读 Fine-tuning documentation唯一谈论“微调微调模型”的部分是高级用法下的以下部分:
If you have already fine-tuned a model for your task and now haveadditional training data that you would like to incorporate, you cancontinue fine-tuning from the model. This creates a model that haslearned from all of the training data without having to re-train fromscratch.
To do this, pass in the fine-tuned model name when creating a newfine-tuning job (e.g.,
-m curie:ft-<org>-<date>
). Other trainingparameters do not have to be changed, however if your new trainingdata is much smaller than your previous training data, you may find ituseful to reducelearning_rate_multiplier
by a factor of 2 to 4.
你问的是两个选项:
ada + bigger-training-dataset.jsonl
ada:ft-acme-inc-2022-06-25 + additional-training-dataset.jsonl
文档没有说明哪个选项更好会产生更好的结果。
然而...
为什么?
When training a fine-tuned model, the total tokens used will be billedaccording to our training rates.
如果您选择选项 1,您将为训练数据集中的某些代币支付两次费用。首先是对初始训练数据集进行微调,其次是对更大的训练数据集进行微调(即 bigger-training-dataset.jsonl
= initial-training-dataset.jsonl
+ additional-training-dataset.jsonl
)。
最好从经过微调的模型继续微调,因为您只需为附加训练数据集中的 token 付费。
阅读更多关于 fine-tuning pricing calculation 的信息.
关于transformer-model - OpenAI GPT-3 API : Fine tune a fine tuned model?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72758187/
我对 mongoosejs 中模型的使用感到有些困惑。 可以通过这些方式使用 mongoose 创建模型 使用 Mongoose var mongoose = require('mongoose');
我正在看 from django.db import models class Publisher(models.Model): name = models.CharField(max_len
我有自己的 html 帮助器扩展,我用这种方式 model.Reason_ID, Register.PurchaseReason) %> 这样声明的。 public static MvcHtmlS
假设模型原本是存储在CPU上的,然后我想把它移到GPU0上,那么我可以这样做: device = torch.device('cuda:0') model = model.to(device) # o
我过去读过一些关于模型的 MVC 建议,指出不应为域和 View 重用相同的模型对象;但我找不到任何人愿意讨论为什么这很糟糕。 我认为创建两个单独的模型 - 一个用于域,一个用于 View - 然后在
我正在使用pytorch构建一个像VGG16这样的简单模型,并且我已经重载了函数forward在我的模型中。 我发现每个人都倾向于使用 model(input)得到输出而不是 model.forwar
tf.keras API 中的 models 是否多余?对于某些情况,即使不使用 models,代码也能正常运行。 keras.models.sequential 和 keras.sequential
当我尝试使用 docker 镜像运行 docker 容器时遇到问题:tensorflow/serving。 我运行命令: docker run --name=tf_serving -it tensor
我有一个模型,我用管道注册了它: register_step = PythonScriptStep(name = "Register Model",
如果 View 需要访问模型中的数据,您是否认为 Controller 应: a)将模型传递给 View b)将模型的数据传递给 View c)都不;这不应该是 Controller 所关心的。让 V
我正在寻找一个可以在模型中定义的字段,该字段本质上是一个列表,因为它将用于存储多个字符串值。显然CharField不能使用。 最佳答案 您正在描述一种多对一的关系。这应该通过一个额外的 Model 进
我最近了解了 Django 中的模型继承。我使用很棒的包 django-model-utils 取得了巨大的成功。我继承自 TimeStampedModel 和 SoftDeletableModel。
我正在使用基于 resnet50 的双输出模型进行项目。一个输出用于回归任务,第二个输出用于分类任务。 我的主要问题是关于模型评估。在训练期间,我在验证集的两个输出上都取得了不错的结果: - 综合损失
我是keras的新手。现在,我将使用我使用 model.fit_generator 训练的模型来预测测试图像组。我可以使用 model.predict 吗?不确定如何使用model.predict_g
在 MVC 应用程序中,我加入了多个表并将其从 Controller 返回到 View,如下所示: | EmployeeID | ControlID | DoorAddress | DoorID |
我在使用 sails-cassandra 连接系统的 Sails 中有一个 Data 模型。数据。 Data.count({...}).exec() 返回 1,但 Data.find({...}).e
我正在使用 PrimeFaces dataTable 开发一个 jsf 页面来显示用户列表。用户存储在 Model.User 类的对象中。
我正在关注https://www.tensorflow.org/tutorials/keras/basic_classification解决 Kaggle 挑战。 但是,我不明白应该将什么样的数据输入
我是这个领域的新手。那么,你们能帮忙如何为 CNN 创建 .config 文件吗? 传递有关如何执行此操作的文档或教程将对我有很大帮助。谢谢大家。 最佳答案 这个问题对我来说没有多大意义,因为 .co
我是“物理系统建模”主题的新手。我阅读了一些基础文献,并在 Modelica 和 Simulink/Simscape 中做了一些教程。我想问你,如果我对以下内容理解正确: 符号操作是将微分代数方程组(
我是一名优秀的程序员,十分优秀!