- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在训练一个序列到序列 (seq2seq) 模型,我有不同的值来训练 input_sequence_length
。
对于值 10
和 15
,我得到了可接受的结果,但是当我尝试使用 20
进行训练时,我遇到了内存错误 所以我将训练切换为分批训练,但模型过度拟合 和验证损失激增,即使使用累积梯度我也会得到相同的行为,所以我正在寻找提示并引导更准确的更新方法。
这是我的训练函数(只有批处理部分):
if batch_size is not None:
k=len(list(np.arange(0,(X_train_tensor_1.size()[0]//batch_size-1), batch_size )))
for epoch in range(num_epochs):
optimizer.zero_grad()
epoch_loss=0
for i in list(np.arange(0,(X_train_tensor_1.size()[0]//batch_size-1), batch_size )): # by using equidistant batch till the last one it becomes much faster than using the X.size()[0] directly
sequence = X_train_tensor[i:i+batch_size,:,:].reshape(-1, sequence_length, input_size).to(device)
labels = y_train_tensor[i:i+batch_size,:,:].reshape(-1, sequence_length, output_size).to(device)
# Forward pass
outputs = model(sequence)
loss = criterion(outputs, labels)
epoch_loss+=loss.item()
# Backward and optimize
loss.backward()
optimizer.step()
epoch_loss=epoch_loss/k
model.eval
validation_loss,_= evaluate(model,X_test_hard_tensor_1,y_test_hard_tensor_1)
model.train()
training_loss_log.append(epoch_loss)
print ('Epoch [{}/{}], Train MSELoss: {}, Validation : {} {}'.format(epoch+1, num_epochs,epoch_loss,validation_loss))
编辑:这是我正在训练的参数:
batch_size = 1024
num_epochs = 25000
learning_rate = 10e-04
optimizer=torch.optim.Adam(model.parameters(), lr=learning_rate)
criterion = nn.MSELoss(reduction='mean')
最佳答案
批量大小影响正则化。一次训练一个样本非常嘈杂,这使得过拟合变得更加困难。批量训练可以平滑所有内容,从而更容易过度拟合。翻译回正则化:
我也很好奇你的学习率。每次调用 loss.backward()
都会累积梯度。如果您已将学习率设置为一次期望一个示例,而不是降低它以解决批量累积,那么将发生以下两种情况之一。
学习率对于现在累积的梯度来说太高,训练会发散,训练和验证错误都会激增。
学习率不会太高,也不会发散。该模型只会更快更有效地训练。如果模型对于适合的数据来说太大,那么训练误差将变为 0,但验证误差会由于过度拟合而激增。
更新
这里是关于梯度累积的更多细节。
每次调用 loss.backward()
都会累积梯度,直到您使用 optimizer.zero_grad()
重置它。当您调用 optimizer.step()
时,它将根据它积累的任何内容进行操作。
你的代码是这样写的,你每次通过内部循环调用loss.backward()
,然后你在外部调用optimizer.step()
重置前循环。因此梯度已经累积,即对批处理中的所有示例进行求和,而不是一次只对一个示例进行求和。
在大多数假设下,这将使批量累积梯度大于单个示例的梯度。如果梯度全部对齐,对于B批处理,它会大B倍。如果梯度是 i.i.d.那么它将更像是 sqrt(B)
倍大。
如果您不考虑这一点,那么您实际上已经按该因素提高了学习率。其中一些将通过更大的批处理的平滑效果来减轻,然后可以容忍更高的学习率。较大的批处理减少正则化,较大的学习率将其加回来。但这并不是补偿的完美匹配,因此您仍需要相应地进行调整。
一般来说,无论何时更改批量大小时,您还需要重新调整学习率以进行补偿。
Leslie N. Smith 撰写了一些关于超参数调整的系统方法的优秀论文。一个很好的起点是 A disciplined approach to neural network hyper-parameters: Part 1 -- learning rate, batch size, momentum, and weight decay .他建议您从阅读图表开始,这些图表做得非常好。
关于python - 分批训练会导致更多的过拟合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61122561/
我正在尝试使用 Spark 从 Cassandra 读取数据。 DataFrame rdf = sqlContext.read().option("keyspace", "readypulse
这是代码: void i_log_ (int error, const char * file, int line, const char * fmt, ...) { /* Get erro
我必须调试一个严重依赖 Gtk 的程序。问题是由于某些原因,在使用 GtkWindow 对象时开始出现许多运行时警告。问题是,即使 Gtk 提示严重错误,它也不会因这些错误而中止。我没有代码库的更改历
我正在尝试从已有效编译和链接的程序中检索二进制文件。我已经通过 GL_PROGRAM_BINARY_LENGTH 收到了它的长度。该文档说有两个实例可能会发生 GL_INVALID_OPERATION
我有一个托管在 Azure 环境中的服务。我正在使用控制台应用程序使用该服务。这样做时,我得到了异常: "The requested service, 'http://xxxx-d.yyyy.be/S
我有以下代码,它被 SEGV 信号杀死。使用调试器表明它被 main() 中的第一个 sem_init() 杀死。如果我注释掉第一个 sem_init() ,第二个会导致同样的问题。我试图弄清楚是什么
目前我正在编写一个应用程序(目标 iOS 6,启用 ARC),它使用 JSON 进行数据传输,使用核心数据进行持久存储。 JSON 数据由 PHP 脚本通过 json_encode 从 MySQL 数
我对 Xamarin.Forms 还是很陌生。我在出现的主页上有一个非常简单的功能 async public Task BaseAppearing() { if (UserID
这是我的代码的简化版本。 public class MainActivity extends ActionBarActivity { private ArrayList entry = new Arr
我想弄明白为什么我的两个 Java 库很难很好地协同工作。这是场景: 库 1 有一个类 A,其构造函数如下: public A(Object obj) { /* boilerplate */ } 在以
如果网站不需要身份验证,我的代码可以正常工作,如果需要,则在打印“已创建凭据”后会立即出现 EXC_BAD_ACCESS 错误。我不会发布任何内容,并且此代码是直接从文档中复制的 - 知道出了什么问题
我在使用 NSArray 填充 UITableView 时遇到问题。我确信我正在做一些愚蠢的事情,但我无法弄清楚。当我尝试进行简单的计数时,我得到了 EXC_BAD_ACCESS,我知道这是因为我试图
我在 UITableViewCell 上有一个 UITextField,在另一个单元格上有一个按钮。 我单击 UITextField(出现键盘)。 UITextField 调用了以下方法: - (BO
我有一个应用程序出现间歇性崩溃。崩溃日志显示了一个堆栈跟踪,这对我来说很难破译,因此希望其他人看到了这一点并能为我指出正确的方向。 基本上,应用程序在启动时执行反向地理编码请求,以在标签中显示用户的位
我开发了一个 CGImage,当程序使用以下命令将其显示在屏幕上时它工作正常: [output_view.layer performSelectorOnMainThread:@selector(set
我正在使用新的 EncryptedSharedPreferences以谷歌推荐的方式上课: private fun securePrefs(context: Context): SharedPrefe
我有一个中继器,里面有一些控件,其中一个是文本框。我正在尝试使用 jquery 获取文本框,我的代码如下所示: $("#").click(function (event) {}); 但我总是得到 nu
在以下场景中观察到 TTS 初始化错误,太随机了。 已安装 TTS 引擎,存在语音集,并且可以从辅助功能选项中播放示例 tts。 TTS 初始化在之前初始化和播放的同一设备上随机失败。 在不同的设备(
maven pom.xml org.openjdk.jol jol-core 0.10 Java 类: public class MyObjectData { pr
在不担心冲突的情况下,可以使用 MD5 作为哈希值,字符串长度最多为多少? 这可能是通过为特定字符集中的每个可能的字符串生成 MD5 哈希来计算的,长度不断增加,直到哈希第二次出现(冲突)。没有冲突的
我是一名优秀的程序员,十分优秀!