gpt4 book ai didi

python - 重新创建字符级RNN以生成文本

转载 作者:行者123 更新时间:2023-12-01 19:35:47 24 4
gpt4 key购买 nike

我紧紧跟随着一本关于深度学习的书,其中有一章以示例样式生成文本。他们使用了具有两个LSTM层的字符级RNN来生成文本格式的文本。但是书中的代码(也在线:https://github.com/DOsinga/deep_learning_cookbook/blob/master/05.1%20Generating%20Text%20in%20the%20Style%20of%20an%20Example%20Text.ipynb)是用keras编写的,我只使用pytorch。因此,我不得不使用相同的网络结构和超参数在pytorch中完全重新创建它。

因此,在重新创建它并使它没有错误地工作之后,它对其进行了培训,并且仅学会编写最常见的字符,即空格。然后,我试图用一个非常简单的句子对它进行过度拟合,因此我不得不将序列长度减小到8。这也不起作用,但是当将LSTM的隐藏大小减小到只有32时,它几乎完美地了解了它。
因此,我继续研究原始文本,并开始使用隐藏的字体,学习率,优化程序(还尝试过adam)进行演奏,并对其进行了更长的培训。我能获得的最好的结果是一些随机的字母,仍然有很多空格和类似“她”之类的字母,但难以理解,而且损失仍然很大。我使用RMSprop的lr = 0.01,在20000个纪元内的隐藏大小为128。我还尝试将隐藏状态和单元状态初始化为零。

问题是,我的结果比书中的结果差很多,但是在pytorch中我做的完全一样。有人可以告诉我,我应该尝试还是做错了什么。任何帮助表示赞赏!
PS:对不起,我的英语不好。

这是我的原始超参数代码:

#hyperparameters
batch_size = 256
seq_len = 160
hidden_size = 640
layers = 2

#network structure
class RNN(nn.Module):
def __init__(self):
super().__init__()
self.lstm = nn.LSTM(len(chars),hidden_size,layers)
self.linear = nn.Linear(hidden_size,len(chars))
self.softmax = nn.Softmax(dim=2)
def forward(self,x,h,c):
x,(h,c) = self.lstm(x,(h,c))
x = self.softmax(self.linear(x))
return x,h,c

#create network, optimizer and criterion
rnn = RNN().cuda()
optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01)
criterion = nn.CrossEntropyLoss()

#training loop
plt.ion()
losses = []
loss_sum = 0
for epoch in range(10000):
#generate input and target filled with zeros
input = numpy.zeros((seq_len,batch_size,len(chars)))
target = numpy.zeros((seq_len,batch_size))
for batch in range(batch_size):
#choose random starting index in text
start = random.randrange(len(text)-seq_len-1)
#generate sequences for that batch filled with zeros
input_seq = numpy.zeros((seq_len+1,len(chars)))
target_seq = numpy.zeros((seq_len+1))
for i,char in enumerate(text[start:start+seq_len+1]):
#convert character to index
idx = char_to_idx[char]
#set value of index to one (one-hot-encoding)
input_seq[i,idx] = 1
#set value to index (only label)
target_seq[i] = idx
#insert sequences into input and target
input[:,batch,:] = input_seq[:-1]
target[:,batch] = target_seq[1:]
#convert input and target from numpy array to pytorch tensor on gpu
input = torch.from_numpy(input).float().cuda()
target = torch.from_numpy(target).long().cuda()

#initialize hidden state and cell state to zero
h0 = torch.zeros(layers,batch_size,hidden_size).cuda()
c0 = torch.zeros(layers,batch_size,hidden_size).cuda()
#run the network on the input
output,h,c = rnn(input,h0,c0)
#calculate loss and perform gradient descent
optimizer.zero_grad()
loss = criterion(output.view(-1,len(chars)),target.view(-1))
loss.backward()
optimizer.step()


使用原始超参数的损失图:
loss

训练后的目标和输出示例:
Target:  can bring this instrument of honour
again into his native quarter, be magnanimous in the enterprise,
and go on; I will grace the attempt for a worthy e
Output:

在20000个时期内隐藏大小为128的损失图(最佳结果):
enter image description here

最佳答案

后来我终于找到一种方法来达到接近真实句子的水平,也许会对某人有所帮助。这是一个示例结果:

-我还没有见过他,而王子则是他 property 累累的标志。

在我的情况下,重要的更改是不将每一个批次的初始化为零,而仅将每个时代初始化为零。为此,我必须重写批处理生成器,以便它可以依次生成批处理。

关于python - 重新创建字符级RNN以生成文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58580553/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com