python-3.x - 为 tf.nn.embedding_lookup 预处理不同文本大小时 Pre-Padding 和 Post-Padding 文本的差异-6ren

python-3.x - 为 tf.nn.embedding_lookup 预处理不同文本大小时 Pre-Padding 和 Post-Padding 文本的差异

转载作者：行者123 更新时间：2023-11-30 09:46:14

在馈入嵌入层时，我看到了两种类型的填充。

eg:

considering two sentences:

word1 = "I am a dog person."

word2 = "Krishni and Pradeepa both love cats."

word1_int = [1,2,3,4,5,6]

word2_int = [7,8,9,10,11,12,13]

padding both words to length = 8

padding method 1(putting 0s at the beginning)

word1_int = [0,0,1,2,3,4,5,6]

word2_int = [0,7,8,9,10,11,12,13]

padding method 2(putting 0s at the end)

word1_int = [1,2,3,4,5,6,0,0]

word2_int = [7,8,9,10,11,12,13,0]

我正在尝试使用 20 个新闻组数据集进行在线分类。我目前正在使用第一种方法来填充我的文本。

问题:在我的实现中使用第一种方法比另一种方法有什么优势吗？

提前谢谢您!

我的代码如下所示:

from collections import Counter
import tensorflow as tf
from sklearn.datasets import fetch_20newsgroups
import matplotlib as mplt
mplt.use('agg') # Must be before importing matplotlib.pyplot or pylab!
import matplotlib.pyplot as plt
from string import punctuation
from sklearn.preprocessing import LabelBinarizer
import numpy as np
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')



def pre_process():
    newsgroups_data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

    words = []
    temp_post_text = []
    print(len(newsgroups_data.data))

    for post in newsgroups_data.data:

        all_text = ''.join([text for text in post if text not in punctuation])
        all_text = all_text.split('\n')
        all_text = ''.join(all_text)
        temp_text = all_text.split(" ")

        for word in temp_text:
            if word.isalpha():
                temp_text[temp_text.index(word)] = word.lower()

        # temp_text = [word for word in temp_text if word not in stopwords.words('english')]
        temp_text = list(filter(None, temp_text))
        temp_text = ' '.join([i for i in temp_text if not i.isdigit()])
        words += temp_text.split(" ")
        temp_post_text.append(temp_text)

    # temp_post_text = list(filter(None, temp_post_text))

    dictionary = Counter(words)
    # deleting spaces
    # del dictionary[""]
    sorted_split_words = sorted(dictionary, key=dictionary.get, reverse=True)
    vocab_to_int = {c: i for i, c in enumerate(sorted_split_words,1)}

    message_ints = []
    for message in temp_post_text:
        temp_message = message.split(" ")
        message_ints.append([vocab_to_int[i] for i in temp_message])


    # maximum message length = 6577

    # message_lens = Counter([len(x) for x in message_ints])AAA

    seq_length = 6577
    num_messages = len(temp_post_text)
    features = np.zeros([num_messages, seq_length], dtype=int)
    for i, row in enumerate(message_ints):
        print(features[i, -len(row):])
        features[i, -len(row):] = np.array(row)[:seq_length]
        print(features[i, -len(row):])

    lb = LabelBinarizer()
    lbl = newsgroups_data.target
    labels = np.reshape(lbl, [-1])
    labels = lb.fit_transform(labels)

    return features, labels, len(sorted_split_words)+1


def get_batches(x, y, batch_size=1):
    for ii in range(0, len(y), batch_size):
        yield x[ii:ii + batch_size], y[ii:ii + batch_size]


def plot(noOfWrongPred, dataPoints):
    font_size = 14
    fig = plt.figure(dpi=100,figsize=(10, 6))
    mplt.rcParams.update({'font.size': font_size})
    plt.title("Distribution of wrong predictions", fontsize=font_size)
    plt.ylabel('Error rate', fontsize=font_size)
    plt.xlabel('Number of data points', fontsize=font_size)

    plt.plot(dataPoints, noOfWrongPred, label='Prediction', color='blue', linewidth=1.8)
    # plt.legend(loc='upper right', fontsize=14)

    plt.savefig('distribution of wrong predictions.png')
    # plt.show()



def train_test():
    features, labels, n_words = pre_process()

    print(features.shape)
    print(labels.shape)

    # Defining Hyperparameters

    lstm_layers = 1
    batch_size = 1
    lstm_size = 200
    learning_rate = 0.01

    # --------------placeholders-------------------------------------

    # Create the graph object
    graph = tf.Graph()
    # Add nodes to the graph
    with graph.as_default():

        tf.set_random_seed(1)

        inputs_ = tf.placeholder(tf.int32, [None, None], name="inputs")
        # labels_ = tf.placeholder(dtype= tf.int32)
        labels_ = tf.placeholder(tf.float32, [None, None], name="labels")

        # output_keep_prob is the dropout added to the RNN's outputs, the dropout will have no effect on the calculation of the subsequent states.
        keep_prob = tf.placeholder(tf.float32, name="keep_prob")

        # Size of the embedding vectors (number of units in the embedding layer)
        embed_size = 300

        # generating random values from a uniform distribution (minval included and maxval excluded)
        embedding = tf.Variable(tf.random_uniform((n_words, embed_size), -1, 1),trainable=True)
        embed = tf.nn.embedding_lookup(embedding, inputs_)

        print(embedding.shape)
        print(embed.shape)
        print(embed[0])

        # Your basic LSTM cell
        lstm = tf.contrib.rnn.BasicLSTMCell(lstm_size)


        # Add dropout to the cell
        drop = tf.contrib.rnn.DropoutWrapper(lstm, output_keep_prob=keep_prob)

        # Stack up multiple LSTM layers, for deep learning
        cell = tf.contrib.rnn.MultiRNNCell([drop] * lstm_layers)

        # Getting an initial state of all zeros
        initial_state = cell.zero_state(batch_size, tf.float32)

        outputs, final_state = tf.nn.dynamic_rnn(cell, embed, initial_state=initial_state)

        # hidden layer
        hidden = tf.layers.dense(outputs[:, -1], units=25, activation=tf.nn.relu)

        print(hidden.shape)

        logit = tf.contrib.layers.fully_connected(hidden, num_outputs=20, activation_fn=None)

        cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logit, labels=labels_))

        optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

        saver = tf.train.Saver()

    # ----------------------------online training-----------------------------------------

    with tf.Session(graph=graph) as sess:
        tf.set_random_seed(1)
        sess.run(tf.global_variables_initializer())
        iteration = 1
        state = sess.run(initial_state)
        wrongPred = 0
        noOfWrongPreds = []
        dataPoints = []

        for ii, (x, y) in enumerate(get_batches(features, labels, batch_size), 1):

            feed = {inputs_: x,
                    labels_: y,
                    keep_prob: 0.5,
                    initial_state: state}

            embedzz = sess.run(embedding, feed_dict=feed)

            print(embedzz)


            predictions = tf.nn.softmax(logit).eval(feed_dict=feed)

            print("----------------------------------------------------------")
            print("Iteration: {}".format(iteration))

            isequal = np.equal(np.argmax(predictions[0], 0), np.argmax(y[0], 0))

            print(np.argmax(predictions[0], 0))
            print(np.argmax(y[0], 0))

            if not (isequal):
                wrongPred += 1

            print("nummber of wrong preds: ",wrongPred)

            if iteration%50 == 0:
                noOfWrongPreds.append(wrongPred/iteration)
                dataPoints.append(iteration)

            loss, states, _ = sess.run([cost, final_state, optimizer], feed_dict=feed)

            print("Train loss: {:.3f}".format(loss))
            iteration += 1

        saver.save(sess, "checkpoints/sentiment.ckpt")
        errorRate = wrongPred / len(labels)
        print("ERRORS: ", wrongPred)
        print("ERROR RATE: ", errorRate)
        plot(noOfWrongPreds, dataPoints)


if __name__ == '__main__':
    train_test()

这是我用来填充所有句子的代码示例。

  seq_length = 6577
  num_messages = len(temp_post_text)
    features = np.zeros([num_messages, seq_length], dtype=int)
    for i, row in enumerate(message_ints):
        print(features[i, -len(row):])
        features[i, -len(row):] = np.array(row)[:seq_length]
        print(features[i, -len(row):])

最佳答案

通常，当我们使用 LSTM 或 RNN 时，我们使用最终输出或隐藏状态并将其传递来进行预测。您也在做与此行中看到的相同的事情:

logit = tf.contrib.layers.fully_connected(hidden, num_outputs=20, activation_fn=None)

这里两种填充方法有所不同。如果您使用第二种填充方法，即后填充，那么最终的隐藏状态将被刷新，因为大多数情况下它将是 0，而通过使用第一种方法，我们确保隐藏状态输出正确。

关于python-3.x - 为 tf.nn.embedding_lookup 预处理不同文本大小时 Pre-Padding 和 Post-Padding 文本的差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52423147/

文章推荐： matlab - LSTM Matlab中 `MiniBatchSize`参数的含义是什么

文章推荐： java - com.google.gdata.client.GoogleService$CaptchaRequiredException

文章推荐： Java XML 解析 : Avoid entity reference resolution

文章推荐： python - keras 中 softmax 输出的一个热输入

c# - Pad Left & Pad Right (Pad Center) 字符串
String 有 PadLeft 和 PadRight。我需要左右填充(居中对齐)。是否有执行此操作的标准化方法，或者更好的是，是否有实现相同目标的内置方法？最佳答案据我所知没有。如果您发现自己经
css - 为什么当 padding 集很小时只有 padding-top 和 padding-left 起作用
我刚开始学习 CSS，所以我的问题很基础。如图，如果设置padding:10px；的，但在结果中，似乎只有顶部和左侧工作，为什么会这样，我的意思是如果使用工作流程，它应该是最后两个底部和左侧工作吗？
html - ion-content : padding or no padding?
我正在尝试重新创建类似于 this 的内容.我注意到输入字段不能在内因为那样他们会得到难看的填充物。另一方面，按钮需要此填充，否则它会粘在没有任何填充的一侧。以下代码不起作用，因为它将按钮放置在
python - padding ='same' 转换为 PyTorch padding=#
我正在尝试将以下 Keras 模型代码转换为 pytorch，但在处理 padding='same' 时遇到问题。 model = Sequential() model.add(Con
c++ - 是否可以有时从 on-pad-added 回调外部链接 pad？
与主题中的问题相同，有时是否可以将 pad 从例如 decodebin 元素链接到其他兼容元素的 pad？我正在尝试做这样的事情: GstElement *decodebin = gst_eleme
python - 变形金刚 : Asking to pad but the tokenizer does not have a padding token
尝试使用相同的数据集依次评估一堆 transformers 模型，以检查哪个模型表现更好。模型列表是这个: MODELS = [ ('xlm-mlm-enfr-1024' ,"XLM
python - 变形金刚 : Asking to pad but the tokenizer does not have a padding token
尝试使用相同的数据集依次评估一堆 transformers 模型，以检查哪个模型表现更好。模型列表是这个: MODELS = [ ('xlm-mlm-enfr-1024' ,"XLM
html - 是否有任何理由对内联元素使用 padding-top 和 padding-bottom ？
根据 http://www.maxdesign.com.au/articles/inline/ ，名为“内联元素和填充”的部分说 While padding can be applied to all
html - 标签上的 padding-left padding-right 导致填充顶部和底部
在的左侧和右侧有 3px 的填充标记导致顶部和底部填充。请参阅此处的示例...(但是对于这个 jsfiddle，我只复制了底部的填充，而不是顶部的填充)。 #xyz { padding-r
jquery - padding-left 有效但 padding-right 无效
我有一个滚动时间线 ( demo )，我遇到了 padding-left 在滚动之前隐藏时间线左侧的时间线分支图像的问题, 但 padding-right 无法隐藏右侧的分支图像。我尝试使用的方法是
c++ - "bit padding"或 "padding bits"到底是什么？
我不想用这个来骚扰你，但我在互联网上的任何地方都找不到对“位填充”到底是什么的详细解释，也没有找到与位填充相关的线程的任何答案在 StackOverflow 上。我还在 ISO 9899-1990
html - padding-left 和 padding-start 有什么区别？
在检查一些代码时，我发现了这个新声明:-webkit-padding-start 但我无法理解与现有的 padding-left 有什么区别属性(property)。我已经阅读了 Mozilla De
css - padding-top 不起作用，但 padding-right 是
这是我的CSS: body { margin: 0px; background-color: white; } #navbar { background-color: red; margin: 0 a
android - "Unresolved reference: padding"即使在导入 layout.padding 之后
所以我试图获得一些带有填充的文本修饰符，在我导入 androidx.compose.foundation.layout.padding 之前一切都很好以及 Modifier.padding(10.dp
python - Base64解码: Specific String Incorrect Padding (with correct padding)
我正在尝试使用 Python 的 base64.b64decode(str) 方法对字符串进行 Base64 解码(转换为字节): 46oWrWpy2gTEGwNnN6Ayy 并且我确保它有 4 个
Python time.ctime() 格式 : 0-padding or space-padding
两台不同的计算机(相同的 python 版本)为 time.ctime() 返回不同的格式。一个返回 "Sun May 6 14:04:28 2018" 月份前有2个空格；其他返回 "Sun May
css - 表单给定 padding-right 即使 padding 是 0px
代码中没有设置右边距或右边距的地方，当在 Chrome 的开发者工具中查看表单元素时，它在样式列表中同时显示“padding: 0”和“margin: 0”，但是确实将鼠标悬停在表单元素上时显示边距
html - 将 padding-left 和 padding-right 设置为元素宽度的 10%
有没有办法在 Flexbox 中将 padding-left 和 padding-right 设置为元素宽度的 10%。我尝试使用 padding: 0 10%;，但它不是元素宽度的 10%。 .fl
CSS flexible padding-divs with centered text inside, max-padding
image codepen 你好，我需要 CSS 样式方面的帮助。我正在尝试有一个响应式主菜单，但无法想出一种方法来保持文本在元素框中水平居中，一旦这些由于视口(viewport)宽度较低而开始缩小
android - 编写 : How to have ime padding and Scaffold padding with edge-to-edge and windowSoftInputMode is adjustResize
androidx.compose.material3.Scaffold 填充错误地添加了导航栏填充，即使在打开软键盘时添加了 IME 填充，导致导航栏填充量加倍(请参见下面的屏幕截图，分隔线应该接触到

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python-3.x - 为 tf.nn.embedding_lookup 预处理不同文本大小时 Pre-Padding 和 Post-Padding 文本的差异