gpt4 book ai didi

python - 使用 Keras 处理文本进行分类

转载 作者:行者123 更新时间:2023-11-30 09:07:11 25 4
gpt4 key购买 nike

我正在尝试使用 Keras 训练基本文本分类神经网络。我从网站下载了 12,500 条正面电影评论和 12,500 条负面电影评论。然而,我在将数据处理成 Keras 可以使用的东西时遇到了麻烦。

首先,我打开 25000 个文本文件并将每个文件存储到一个数组中。然后,我通过此函数运行每个数组(一个正数和一个负数):

def process_for_model(textArray):
'''
Given a 2D array of the form:
[[fileLines1],[fileLines2]...[fileLinesN]]
converts the text into integers
'''
result = []
for file_ in textArray:
inner = []
for line in file_:
length = len(set(text_to_word_sequence(line)))
inner.append(hashing_trick(line,round(length*1.3),hash_function='md5'))
result.append(inner)

return result

目的是将单词转换为数字,使它们接近 Keras 模型可以使用的内容。

然后,我将转换后的数字附加到单个数组中,并将 0 或 1 作为标签附加到另一个数组:

training_labels = []
train_batches = []
for i in range(len(positive_encoded)):
train_batches.append(positive_encoded[i])
training_labels.append([0])
for i in range(len(negative_encoded)):
train_batches.append(negative_encoded[i])
training_labels.append([1])

最后我将每个数组转换为 np 数组:

train_batches = array(train_batches)
training_labels = array(training_labels)

但是,我不太确定接下来该去哪里。我相信每条评论都有 168 个字。我不知道如何为这些数据创建合适的模型,也不知道如何使用 sklearn 将所有数字正确缩放到 0 到 1 之间。

我最困惑的是:我应该有多少层,每层应该有多少个神经元,以及第一层应该有多少个输入维度。

我应该完全采用另一种方法吗?

最佳答案

这里有一个很好的 Keras 教程和这个数据集:https://machinelearningmastery.com/predict-sentiment-movie-reviews-using-deep-learning/

关于python - 使用 Keras 处理文本进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49227237/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com