gpt4 book ai didi

machine-learning - 如何训练纯文本段落并返回关键短语?这可能吗?

转载 作者:行者123 更新时间:2023-11-30 08:32:57 26 4
gpt4 key购买 nike

我正在研究关键短语提取,现在我能够创建一些特征并运行候选短语以及用于训练机器学习模型以使用随机森林进行分类的特征。

现在出于好奇,我想尝试深度学习,因为我想手动删除特征提取层,我希望它自己找出特征并通过传递一些文本文档和相对 key 来生成模型对于每个文档,我想知道是否有任何训练模型接受纯文本而不是浮点值,如果不是,我如何尝试通过将句子和关键短语转换为浮点值来实现相同的目标传递给训练模型

甚至尝试使用 Keras Sequential 模型创建模型(给出示例)

model = Sequential()
model.add(Dense(18, input_dim=14, init='uniform', activation='relu'))
model.add(Dense(14, init='uniform', activation='relu'))
model.add(Dense(1, init='uniform', activation='sigmoid'))
# Compile model
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# Fit the model
model.fit(X, Y, epochs=300, batch_size=10)

请向我提供任何启动所需的信息资源并提供代码示例。

最佳答案

您可以使用 word2Vector 将每个单词转换为向量,那里有一些预先训练的单词向量。例如谷歌新闻(每个单词 300 个特征),维基百科(每个单词 400 个特征)。这些是一般的词向量。如果您的内容来自某些特定来源,您可以使用 gensim 来训练您自己的词向量。您可以根据需要定义特征长度(100 甚至更少)。因为你自己的词向量不必涵盖像谷歌和维基百科那样多的单词。用词向量表示一个词,你的句子或短语将是一个向量序列。然后您可以使用 RNN、GRU 或 LSTM 任何类型的时间序列模型来训练内核。预测 1 或 0 是否为关键短语。也称为命名实体识别。

关于machine-learning - 如何训练纯文本段落并返回关键短语?这可能吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55967444/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com