gpt4 book ai didi

python - Pybrain文本分类: data and input

转载 作者:行者123 更新时间:2023-11-30 09:02:11 24 4
gpt4 key购买 nike

我有 3 组句子(字数不同),但我不知道如何从文本中提取特征以使输入维度保持不变。

例如,我尝试过词袋,但是由于字数变化导致输入维度变化,我最终会遇到错误。

如果您能向我展示一种为神经网络准备字符串数据的方法,我将不胜感激。

谢谢!

(Windows 7 中的 Python 2.7)

最佳答案

如何格式化输入

这是从 wikipedia.org 中摘录的内容


这是两个简单的文本文档:

John likes to watch movies. Mary likes too.


John also likes to watch football games.


基于这两个文本文档,构造一个字典:

{
"John": 1,
"likes": 2,
"to": 3,
"watch": 4,
"movies": 5,
"also": 6,
"football": 7,
"games": 8,
"Mary": 9,
"too": 10
}

其中有 10 个不同的单词。并使用字典的索引,每个文档由一个 10 条目向量表示:

[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]


无论文档长度如何,您输入的内容都将保持相同的大小。我希望这会对您有所帮助。

关于python - Pybrain文本分类: data and input,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18070368/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com