gpt4 book ai didi

python - 如何使用 TfIdfVectorizer 使用 SciKitLearn 对文档进行分类?

转载 作者:行者123 更新时间:2023-11-28 19:56:28 25 4
gpt4 key购买 nike

以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器。

>>> from sklearn.feature_extraction.text import TfidfVectorizer 
>>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories)
>>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data)
>>> vectors.shape (2034, 34118)

但是,我有自己的标记语料库,我想使用。

在得到我自己的数据的 tfidfvector 之后,我会像这样训练分类器吗?

classif_nb = nltk.NaiveBayesClassifier.train(vectorizer)

回顾一下:我怎样才能使用我自己的语料库而不是 20 个新闻组,但使用与此处相同的方式?我该如何使用我的 TFIDFVectorized 语料库来训练分类器?

谢谢!

最佳答案

解决评论中的问题;在某些分类任务中使用 tfidf 表示的整个基本过程您应该:

  1. 您将矢量化器拟合到您的训练数据并将其保存在某个变量中,我们称之为tfidf
  2. 您通过 data = tfidf.transform(...)转换训练数据(没有标签,只有文本)
  3. 您使用 some_classifier.fit(data, labels)拟合模型(分类器),其中标签与数据中的文档的顺序相同
  4. 在测试期间,您对新数据使用 tfidf.transform( ... ),并检查模型的预测

关于python - 如何使用 TfIdfVectorizer 使用 SciKitLearn 对文档进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19671218/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com