gpt4 book ai didi

python - 如何从列表中制作特征向量

转载 作者:太空宇宙 更新时间:2023-11-04 05:50:14 25 4
gpt4 key购买 nike

我是 python 的新手。实际上我有一个词袋中的火车数据。火车数据的每一行都是一篇文章。训练数据的标签在另一个文件中,每个 i 标签等于训练数据中的第 i 篇文章。我在火车数据上做了词干分析,也删除了停用词。输出是每篇文章(行)的单词列表。现在我想提取它的特征向量,然后在我的 python 中的 KNN 分类器中使用它。我不知道该怎么做!我感谢任何快速回答。这是我所做的代码:

  import nltk
from nltk.corpus import stopwords
from nltk import stem
stemmer=stem.PorterStemmer()


with open('data.txt')as file:
while 1:
line=file.readline().split()
filtered_words = [w for w in line if not w in stopwords.words('english')]
documents = [stemmer.stem(line) for line in filtered_words]

print(documents)


if not line:
break
pass

最佳答案

看看 Scikit-learn 的 CountVectorizerTfIdfVectorizer .这些可以将文档列表(这些是 token 列表,如您的示例所示)作为其输入,并返回一个特征矩阵:

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(your_list_of_documents)

您可以在 Working with Text Data Tutorial 中找到更多信息.

关于python - 如何从列表中制作特征向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30640970/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com