gpt4 book ai didi

nlp - 使用Keras Tokenizer生成n-gram

转载 作者:行者123 更新时间:2023-12-04 22:10:05 24 4
gpt4 key购买 nike

在Keras中可以使用n-gram吗?

例如,句子包含在X_train数据框中,带有“句子”列。

我通过以下方式使用Keras的 token 生成器:

tokenizer = Tokenizer(lower=True, split=' ')
tokenizer.fit_on_texts(X_train.sentences)
X_train_tokenized = tokenizer.texts_to_sequences(X_train.sentences)

然后,我按以下方式填充句子:
X_train_sequence = sequence.pad_sequences(X_train_tokenized)

我也使用一个简单的LSTM网络:
model = Sequential()
model.add(Embedding(MAX_FEATURES, 128))
model.add(LSTM(32, dropout=0.2, recurrent_dropout=0.2,
activation='tanh', return_sequences=True))
model.add(LSTM(64, dropout=0.2, recurrent_dropout=0.2, activation='tanh'))
model.add(Dense(number_classes, activation='sigmoid'))
model.compile(loss='categorical_crossentropy', optimizer='rmsprop',
metrics=['accuracy'])

在这种情况下,将执行分词器。
在Keras文档中: https://keras.io/preprocessing/text/
我看到可以进行字符处理,但这不适用于我的情况。

我的主要问题:我可以将N-gram用于NLP任务(不仅是情感分析,还可以是任何NLP任务)

为了澄清:我不仅要考虑单词,还要考虑单词的组合。我想尝试一下,看看它对我的任务建模是否有帮助。

最佳答案

不幸的是,Keras Tokenizer()不支持n-gram。您应该创建一个解决方法,并自行标记文档,然后将其馈送到神经网络。

关于nlp - 使用Keras Tokenizer生成n-gram,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46173502/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com