machine-learning - 使用 Tensorflow Serving 时如何存储字典并将单词映射到整数？-6ren

machine-learning - 使用 Tensorflow Serving 时如何存储字典并将单词映射到整数？

转载作者：行者123 更新时间：2023-11-30 09:18:52

25

4

我在 Tensorflow 上训练了 LSTM RNN 分类模型。我正在保存和恢复检查点以重新训练并使用模型进行测试。现在我想使用 Tensorflow 服务，以便我可以在生产中使用该模型。

最初，我会解析语料库来创建字典，然后使用该字典将字符串中的单词映射到整数。然后，我会将这个字典存储在一个 pickle 文件中，该文件可以在恢复检查点并在数据集上重新训练时重新加载，或者只是为了使用模型以使映射保持一致。使用 SavedModelBuilder 保存模型时如何存储此字典？

我的神经网络代码如下。保存模型的代码即将结束(我包括上下文的整个结构的概述):

...


# Read files and store them in variables
with open('./someReview.txt', 'r') as f:
    reviews = f.read()
with open('./someLabels.txt', 'r') as f:
    labels = f.read()

...

#Pre-processing functions
#Parse through dataset and create a vocabulary
vocab_to_int, reviews = RnnPreprocessing.map_vocab_to_int(reviews)
with open(pickle_path, 'wb') as handle:
    pickle.dump(vocab_to_int, handle, protocol=pickle.HIGHEST_PROTOCOL)

#More preprocessing functions
...


# Building the graph
lstm_size = 256
lstm_layers = 2
batch_size = 1000
learning_rate = 0.01            
n_words = len(vocab_to_int) + 1 

# Create the graph object
tf.reset_default_graph()
with tf.name_scope('inputs'):
    inputs_ = tf.placeholder(tf.int32, [None, None], name="inputs")
    labels_ = tf.placeholder(tf.int32, [None, None], name="labels")
    keep_prob = tf.placeholder(tf.float32, name="keep_prob")

#Create embedding layer LSTM cell, LSTM Layers

...

# Forward pass
with tf.name_scope("RNN_forward"):
    outputs, final_state = tf.nn.dynamic_rnn(cell, embed, initial_state=initial_state)


# Output. We are only interested in the latest output of the lstm cell
with tf.name_scope('predictions'):
    predictions = tf.contrib.layers.fully_connected(outputs[:, -1], 1, activation_fn=tf.sigmoid)
    tf.summary.histogram('predictions', predictions)
#More functions for cost, accuracy, optimizer initialization

... 

# Training
epochs = 1
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    iteration = 1
    for e in range(epochs):
        state = sess.run(initial_state)

        for ii, (x, y) in enumerate(get_batches(train_x, train_y, batch_size), 1):
            feed = {inputs_: x,
                    labels_: y[:, None],
                    keep_prob: 0.5,
                    initial_state: state}
            summary, loss, state, _ = sess.run([merged, cost, final_state, optimizer], feed_dict=feed)

            train_writer.add_summary(summary, iteration)

            if iteration%1==0:
                print("Epoch: {}/{}".format(e, epochs),
                      "Iteration: {}".format(iteration),
                      "Train loss: {:.3f}".format(loss))

            if iteration%2==0:
                val_acc = []
                val_state = sess.run(cell.zero_state(batch_size, tf.float32))
                for x, y in get_batches(val_x, val_y, batch_size):
                    feed = {inputs_: x,
                            labels_: y[:, None],
                            keep_prob: 1,
                            initial_state: val_state}
                    summary, batch_acc, val_state = sess.run([merged, accuracy, final_state], feed_dict=feed)
                    val_acc.append(batch_acc)
                print("Val acc: {:.3f}".format(np.mean(val_acc)))
            iteration +=1
            test_writer.add_summary(summary, iteration)



    #Saving the model
    export_path = './SavedModel'
    print ('Exporting trained model to %s'%(export_path))

    builder = saved_model_builder.SavedModelBuilder(export_path)

    # Build the signature_def_map.    
    classification_inputs = utils.build_tensor_info(inputs_)
    classification_outputs_classes = utils.build_tensor_info(labels_)

    classification_signature = signature_def_utils.build_signature_def(
        inputs={signature_constants.CLASSIFY_INPUTS: classification_inputs},
        outputs={
          signature_constants.CLASSIFY_OUTPUT_CLASSES:
              classification_outputs_classes,
        },
      method_name=signature_constants.CLASSIFY_METHOD_NAME)


    legacy_init_op = tf.group(
        tf.tables_initializer(), name='legacy_init_op')
    #add the sigs to the servable
    builder.add_meta_graph_and_variables(
        sess, [tag_constants.SERVING],
        signature_def_map={
            signature_constants.DEFAULT_SERVING_SIGNATURE_DEF_KEY:
                classification_signature
        },
        legacy_init_op=legacy_init_op)
    print ("added meta graph and variables")

    #save it!
    builder.save()
    print("model saved")

我不完全确定这是否是保存此类模型的正确方法，但这是我在文档和在线教程中找到的唯一实现。

我在文档中没有找到任何示例或任何明确的指南来保存字典或如何在恢复保存的模型时使用它。

使用检查点时，我只需在运行 session 之前加载 pickle 文件。如何恢复这个保存的模型，以便我可以使用字典使用相同的单词到 int 映射？我应该有什么特定的方法来保存或加载模型吗？

我还添加了inputs_作为输入签名的输入。这是单词被映射后的整数序列。我无法指定字符串作为输入，因为我收到 AttributeError: 'str' object has no attribute 'dtype' 。在这种情况下，单词到底是如何映射到生产模型中的整数的？

最佳答案

使用tf.feature_column中的实用程序实现预处理，并且在服务中使用与整数相同的映射将非常简单。

关于machine-learning - 使用 Tensorflow Serving 时如何存储字典并将单词映射到整数？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47399201/

25

4

0

文章推荐： machine-learning - 替换卡住 Tensorflow 模型中的节点

文章推荐： Javascript点击事件每次点击都会加倍

文章推荐： python - 用于多项式回归的 GridsearchCV

文章推荐： python - sklearn 在尝试预测数字时总是预测 1

字典 .title() 中的 Python 字典
我只想国家和资本化的值(value)。这是我的完整代码: cities = { 'rotterdam': { 'country': 'netherlands',
vba - Excel VBA - 字典.Exists(字典)？
想更好地了解如何比较对象类型的键。 dicOverall.exists(dic2) 返回 False，而 dicOverall.exists(dic1) 返回 True。我不太确定 .Exists 如
Python - 字典
我是编程和 python 的新手，我不知道如何解决这个问题。 my_dict = {'tiger': ['claws', 'sharp teeth', 'four legs', 'stripes'
JavaScript 字典
这个问题已经有答案了: Accessing an object property with a dynamically-computed name (19 个回答) 已关闭 8 年前。我引用了这篇文
Python数据结构，字典？
希望有人能帮忙。我正在使用 Python，我希望能够执行以下操作。我有一组对象(例如形状)和一系列作用于这些对象的命令。命令的格式为命令字符串，后跟可变数量的参数，可以是字符串或整数例如形状“矩形
Python内存管理——字典
我在文件中保存了一本字典。我从 python 交互式 shell 将字典加载到内存中，我的系统监视器显示 python 进程消耗了 4GB。以下命令提供以下输出: size1 = sys.getsiz
仅当定义了值时才更新 Python 字典
如果我运行以下代码: import json foo = [ { "name": "Bob", "occupation": "", "stand
r - 将所有列名及其索引对保存为数据框/字典
我尝试获取列名及其索引，并将结果保存为数据框或字典: df <- data.frame(a=rnorm(10), b=rnorm(10), c=rnorm(10)) 我该怎么做？谢谢。 column
python - 字典，从键中调用值
我正在尝试获取输入，如果字典 logins 有一个与我的输入匹配的键，我想返回该键的值。 logins = { 'admin':'admin', 'turtle':'password1
Perl CPAN 字典
在 Perl 世界中有一个很棒的东西叫做 CPAN .它是开源 Perl 库的大型存储。我使用来自 CPAN 的模块，我已经发布了 several distributions myself . 我使
Python "valueless"字典
这个问题已经有答案了: Is there a Python dict without values? (3 个回答) 已关闭 3 年前。我有一个问题，我想跟踪大量值。如果我从未遇到过该值，我将执行操
.net - 使用带有字符串键和不区分大小写的搜索的哈希表/字典
想知道这是否可能。我们有一个第 3 方库，其中包含有关用户的识别信息... 与库的主要交互是通过一个以字符串为键的 HashTable，并返回该键的信息对象图。问题是， key 显然是区分大小写的
F#:字典、哈希表和映射之间的区别
我是 .NET 编程的新手。对不起，如果这个问题以前被问过。我目前正在学习 F#。 Dictionary、Hashtable 和 Map 之间有什么区别？我应该什么时候使用？我还有一个标题中没有提
opencv - 使用功能包进行分类的词汇/字典
我正在尝试使用SVM进行3类分类。为此，我正在SVM培训期间准备词汇表。但是，由于我在SVM预测期间获得随机结果，因此我怀疑我的词汇创建方法中存在一些问题。我创建词汇的代码如下: //Mat trai
r - 为什么R的关联数组被称为列表而不是映射/字典
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
python - 字典:如何列出包含某个值的每个关键路径？
假设我有一个以下形式的嵌套字典: {'geo': {'bgcolor': 'white','lakecolor': 'white','caxis': {'gridcolor': 'white', 'l
java - 字典:硬编码与外部文件
我有一个 java 应用程序，每秒启动和停止数亿个项目(从外部脚本调用)多次。 Input: String key Output: int value 此应用程序的目的是在从未永远改变的Map(约30
excel - 字典、集合和数组的比较
我正在尝试找出字典与集合和数组相比的相对优势和功能。我发现了一篇很棒的文章here但找不到一个简单的表格来比较所有不同的功能。有人知道吗？最佳答案请参阅下表，对集合和字典进行有用的比较。 (该
具有默认值的 .net 字典
我想要一个字典，它可以为字典中没有的任何键返回一个指定的值，例如: var dict = new DictWithDefValues("not specified"); dict.Add("bob78
python - 多个函数中的相同列表/字典
我是 python 新手，目前仍在学习如何处理列表和字典。我有这两个功能 def food_database(item_name, size_serv, calorie_serv, prot

首页

博学

6Ren·AI

商城

machine-learning - 使用 Tensorflow Serving 时如何存储字典并将单词映射到整数？