gpt4 book ai didi

python - 给定单词和频率对的字典,如何在 scikit 中进行文本挖掘

转载 作者:太空宇宙 更新时间:2023-11-03 17:58:12 24 4
gpt4 key购买 nike

我已经有了这样的词频和类别:

y = ['animals', 'restaurants', 'sports']
x = [{'cat':1, 'dog':2}, {'food':4, 'drink':2}, {'baseball':4, 'basketball':5}]

我应该如何按照以下教程继续构建管道:

>>> from sklearn.pipeline import Pipeline
>>> text_clf = Pipeline([('vect', CountVectorizer()),
... ('tfidf', TfidfTransformer()),
... ('clf', MultinomialNB()),
... ])

>>> text_clf = text_clf.fit(twenty_train.data, twenty_train.target)

CountVectorizer 需要一个字符串...我想我可以从字典中创建一个字符串并重复每个单词出现的次数?

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html

最佳答案

如果您已经有词频,则使用 DictVectorizer :

from sklearn.feature_extraction import DictVectorizer

pipeline = Pipeline([('dvect', DictVectorizer()),
('tfidf', TfidfTransformer()),
('clf', MultinomialNB())])
model = pipeline.fit(x, y)

然后你可以这样做:

>>> model.predict([{'cat':1}])[0]
'animals'

关于python - 给定单词和频率对的字典,如何在 scikit 中进行文本挖掘,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28195652/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com