python - 重新创建字符级RNN以生成文本-6ren

python - 重新创建字符级RNN以生成文本

转载作者：行者123 更新时间：2023-12-01 19:35:47

24

4

我紧紧跟随着一本关于深度学习的书，其中有一章以示例样式生成文本。他们使用了具有两个LSTM层的字符级RNN来生成文本格式的文本。但是书中的代码(也在线:https://github.com/DOsinga/deep_learning_cookbook/blob/master/05.1%20Generating%20Text%20in%20the%20Style%20of%20an%20Example%20Text.ipynb)是用keras编写的，我只使用pytorch。因此，我不得不使用相同的网络结构和超参数在pytorch中完全重新创建它。

因此，在重新创建它并使它没有错误地工作之后，它对其进行了培训，并且仅学会编写最常见的字符，即空格。然后，我试图用一个非常简单的句子对它进行过度拟合，因此我不得不将序列长度减小到8。这也不起作用，但是当将LSTM的隐藏大小减小到只有32时，它几乎完美地了解了它。
因此，我继续研究原始文本，并开始使用隐藏的字体，学习率，优化程序(还尝试过adam)进行演奏，并对其进行了更长的培训。我能获得的最好的结果是一些随机的字母，仍然有很多空格和类似“她”之类的字母，但难以理解，而且损失仍然很大。我使用RMSprop的lr = 0.01，在20000个纪元内的隐藏大小为128。我还尝试将隐藏状态和单元状态初始化为零。

问题是，我的结果比书中的结果差很多，但是在pytorch中我做的完全一样。有人可以告诉我，我应该尝试还是做错了什么。任何帮助表示赞赏!
PS:对不起，我的英语不好。

这是我的原始超参数代码:

#hyperparameters
batch_size = 256
seq_len = 160
hidden_size = 640
layers = 2

#network structure
class RNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.lstm = nn.LSTM(len(chars),hidden_size,layers)
        self.linear = nn.Linear(hidden_size,len(chars))
        self.softmax = nn.Softmax(dim=2)
    def forward(self,x,h,c):
        x,(h,c) = self.lstm(x,(h,c))
        x = self.softmax(self.linear(x))
        return x,h,c

#create network, optimizer and criterion
rnn = RNN().cuda()
optimizer = torch.optim.RMSprop(rnn.parameters(),lr=0.01)
criterion = nn.CrossEntropyLoss()

#training loop
plt.ion()
losses = []
loss_sum = 0
for epoch in range(10000):
    #generate input and target filled with zeros
    input = numpy.zeros((seq_len,batch_size,len(chars)))
    target = numpy.zeros((seq_len,batch_size))
    for batch in range(batch_size):
        #choose random starting index in text
        start = random.randrange(len(text)-seq_len-1)
        #generate sequences for that batch filled with zeros
        input_seq = numpy.zeros((seq_len+1,len(chars)))
        target_seq = numpy.zeros((seq_len+1))
        for i,char in enumerate(text[start:start+seq_len+1]):
            #convert character to index
            idx = char_to_idx[char]
            #set value of index to one (one-hot-encoding)
            input_seq[i,idx] = 1
            #set value to index (only label)
            target_seq[i] = idx
        #insert sequences into input and target
        input[:,batch,:] = input_seq[:-1]
        target[:,batch] = target_seq[1:]
    #convert input and target from numpy array to pytorch tensor on gpu
    input = torch.from_numpy(input).float().cuda()
    target = torch.from_numpy(target).long().cuda()

    #initialize hidden state and cell state to zero
    h0 = torch.zeros(layers,batch_size,hidden_size).cuda()
    c0 = torch.zeros(layers,batch_size,hidden_size).cuda()
    #run the network on the input
    output,h,c = rnn(input,h0,c0)
    #calculate loss and perform gradient descent
    optimizer.zero_grad()
    loss = criterion(output.view(-1,len(chars)),target.view(-1))
    loss.backward()
    optimizer.step()

使用原始超参数的损失图:

训练后的目标和输出示例:

Target:  can bring this instrument of honour
    again into his native quarter, be magnanimous in the enterprise,
    and go on; I will grace the attempt for a worthy e
Output:

在20000个时期内隐藏大小为128的损失图(最佳结果):

最佳答案

后来我终于找到一种方法来达到接近真实句子的水平，也许会对某人有所帮助。这是一个示例结果:

-我还没有见过他，而王子则是他 property 累累的标志。

在我的情况下，重要的更改是不将每一个批次的初始化为零，而仅将每个时代初始化为零。为此，我必须重写批处理生成器，以便它可以依次生成批处理。

关于python - 重新创建字符级RNN以生成文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58580553/

24

4

0

文章推荐： active-directory - 为什么 Active Directory 中的 DN 使用全名？

文章推荐： r - 使用 bnlearn 包从贝叶斯网络中删除节点

tomcat - 无法使用 JDK6 生成 keystore ，但可以使用 JDK5 生成
我正在尝试使用以下 keytool 命令为我的应用程序生成 keystore : keytool -genkey -alias tomcat -keystore tomcat.keystore -ke
javascript - D3.js:生成 X 轴会删除我的一些点的标签，生成 Y 轴会将它们全部删除
编辑:在西里尔正确解决问题后，我注意到只需将生成轴的函数放在用于生成标签的函数下面就可以解决问题。我几乎读完了 O'Reilly 书中关于 D3.js 的教程，并在倒数第二页上制作了散点图，但是当添
graphql - 从 Schema 生成 GraphQL GUI 和从 GUI 生成 Schema
虽然使用 GraphiQL 效果很好，但我的老板要求我实现一个用户界面，用户可以在其中通过 UI 元素(例如复选框、映射关系)检查呈现给他们的元素并获取数据，这样做将为该人生成 graphql 输入，
java - 如何删除 Netbean 6.8 中的生成源(jax-ws)？我应该根据网站地址从 WSDL 生成 WS 客户端还是从 api 生成 WS 客户端？
我尝试在 Netbean 6.8 中使用 ws-import 生成 Java 类。我想重新生成 jax-ws，因为在 ebay.api.paypalapi 包中发现了一个错误(我认为该错误是由于 Pa
生成 Perl 日期时间？
我有一个 perl 脚本，它获取系统日期并将该日期写入文件名。系统日期被分配给 TRH1 变量，然后它被设置为一个文件名。 $TRH1 =`date + %Y%m%d%H%M`; print "TR
Haskell UUID 生成
我是 Haskell 的新手，需要帮助。我正在尝试构建一种必须具有某种唯一性的新数据类型，因此我决定使用 UUID 作为唯一标识符: data MyType = MyType { uuid ::
php - 生成 XML
我制作了一个脚本，它可以根据 Mysql 数据库中的一些表生成 XML。该脚本在 PHP 中运行。 public function getRawMaterials($apiKey, $format
openssl - 生成、签署和验证数字签名
所以这是我的项目中的一个问题。 In this task, we will use OpenSSL to generate digital signatures. Please prepare a f
r - 生成/绘制对数正态生存函数
我在 SAS LIFEREG 中有一个加速故障时间模型，我想绘制它。因为 SAS 在绘图方面非常糟糕，我想实际重新生成 R 中曲线的数据并将它们绘制在那里。 SAS 提出了一个尺度(在指数分布固定为
Django key 生成
我正在为 Django 后端制作一个样板，并且我需要能够使它到达下一个下载它的人显然无法访问我的 secret key 的地方，或者拥有不同的 key 。我一直在研究一些选项，并在这个过程中进行了实验
iPhone Excel 生成
我正在创建一个生成采购订单的应用程序。我可以根据用户输入的详细信息创建文本文件。我想生成一个看起来比普通文本文件好得多的 Excel。有没有可以在我的应用程序中使用的开源库？最佳答案目前还没有任何
ScalaCheck 生成 BST
我正在尝试使用 ScalaCheck 为 BST 创建一个 Gen，但是当我调用 .sample 方法时，它给了我 java.lang.NullPointerException。我哪里错了？ seal
Javascript 测验结果计算/生成
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
verilog 生成 if/else
我尝试编写一些代码，例如(在verilog中): parameter N = 128; if (encoder_in[0] == 1) begin 23 binary_out = 1;
hibernate - Grails 生成
我正忙于在 Grails 项目中进行从 MySQL 到 Postgres 的相当复杂的数据迁移。我正在使用 GORM 在 PostGres 中生成模式，然后执行 MySQL -> mysqldump
XSLT 生成 UUID
如何使用纯 XSLT 生成 UUID？基本上是寻找一种使用 XSLT 创建独特序列的方法。该序列可以是任意长度。我正在使用 XSLT 2.0。最佳答案这是一个good example 。基本上，
ios - 生成.app文件并安装在设备上
我尝试安装.app文件，但是当我安装并单击“同步”(在iTunes中)时，我开始在设备上开始安装，然后停止，这是一个问题，我不知道在哪里，但我看到了我无法解决的奇怪的事情: 最佳答案似乎您没有在Xc
java - 生成 JavaDocs？
自从我生成 JavaDocs 以来已经有一段时间了，我确信这些选项在过去 10 年左右的时间里已经得到了改进。我能否得到一些有关生成器的建议，该生成器将输出类似于 .Net 文档结构的 JavaDo
.net - 生成 PDF
我想学习如何生成 PDF，我不想使用任何第三方工具，我想自己用代码创建它。到目前为止，我所看到的唯一示例是我通过在第 3 方 dll 上打开反射器查看的代码，以查看发生了什么。不幸的是，到目前为止我看
C# Excel 生成
我正在从 Epplus 库生成 excel 条形图。这是我成功生成的。我的 table 是这样的 Mumbai Delhi Financial D

首页

博学

6Ren·AI

商城

python - 重新创建字符级RNN以生成文本