gpt4 book ai didi

python - 我在 python 中使用 sklearn 进行文本分类的管道配置

转载 作者:太空宇宙 更新时间:2023-11-04 03:18:43 26 4
gpt4 key购买 nike

我完成了以下管道:

max_features=无,min_df=2,ngram_range=(1, 3)

1- 如何打印此管道的输出?我的意思是(1-3 克)如果我想自己生成二元模型,最好的解决方案是什么?

2-如果我想添加像 min-TF >1 这样的约束?

这是我的配置:

from sklearn.naive_bayes import MultinomialNB,BernoulliNB,GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
('count_vectorizer', TfidfVectorizer(max_features=None, min_df=2,ngram_range=(1, 3),token_pattern=r'\s',analyzer = 'word' ,lowercase=False, stop_words=StopWordsList)),
('tfidf_transformer', TfidfTransformer(norm='l2', smooth_idf=False, sublinear_tf=False, use_idf=True)), ('classifier', MultinomialNB() )# SVC(kernel='rbf', probability=True) )
])

最佳答案

您可以通过 named_steps 从管道中获取特定元素。

1.您可以访问您的“count_vectorizer”并打印 idf_ 属性,该属性表示“学习的 idf 向量(全局术语权重)”

pipeline.named_steps['count_vectorizer'].idf_

1.1 当然你可以打印词汇表,它给你一个包含 ngram 的字典以及它们与学习的 idf 向量的列对应

pipeline.named_steps['count_vectorizer'].vocabulary_

1.2 我不会自己生成二元语法。您可以随时使用管道 set_params 函数更改管道参数。在你的情况下:

pipeline.set_params(count_vectorizer__ngram_range=(1,2))

注意这里参数是如何构造的。因此,您的 count_vectorizer__ngram_range 有一个前缀 count_vectorizer,这是您在管道中用于确切元素的名称。它后面跟着 __ 标记,这意味着接下来是该元素的参数名称,在这种情况下,您选择 ngram_range

但如果您打算明确选择您想要统计哪些单词,则可以通过vocabulary 参数来完成。来自文档“vocabulary : Mapping or iterable, optional一个映射(例如,字典),其中键是术语,值是特征矩阵中的索引,或者是可迭代的术语。如果没有给出,词汇表是根据输入文档确定的。”。所以你可以创建类似 {'awesome unicorns':0, 'batman forever':1} 的东西,它会只对你的双字母“awesome unicorns”和“batman forever”执行 tf-idf ;)

2. 您也可以像我们在 1.2 中那样“即时”添加约束pipeline.set_params(count_vectorizer__min_df=2)。尽管我看到您已经在 TfidfVectorizer 初始参数中设置了这个变量。所以我不确定我在这里理解你的问题。

不要忘记用一些数据运行你的管道,否则将没有任何词汇可以打印。例如,我加载了大约 20 个新闻组数据来执行我的测试,然后安装了您的管道。以防万一它对你有用:

from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups(subset='train', categories=['alt.atheism'])
pipeline.fit(data.data,data.target)
pipeline.named_steps['count_vectorizer'].idf_
pipeline.named_steps['count_vectorizer'].vocabulary_
pipeline.set_params(count_vectorizer__ngram_range=(1, 2)).fit(data.data,data.target)

Recommendation: if you'd like to try with several possible configurations in your pipelines you can always set a range of parameter values and get the best scores by a GridSearch, here is a nice example http://scikit-learn.org/stable/auto_examples/model_selection/grid_search_text_feature_extraction.html

关于python - 我在 python 中使用 sklearn 进行文本分类的管道配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35382657/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com