gpt4 book ai didi

python - 解释用于文本分类的随机森林模型

转载 作者:太空宇宙 更新时间:2023-11-03 14:14:30 25 4
gpt4 key购买 nike

我有一个文本数据集,我在其中手动将每条记录分类为两个可能的类别之一。我在语料库上创建了一个没有英语停用词的 TFIDF,训练/测试了一个随机森林分类器,评估了模型,并将该模型应用于更大的文本语料库。到目前为止一切都很好,但是如何找到更多关于我的模型的信息,即如何找出哪些词对模型“重要”?

最佳答案

经过训练的 RF 应该具有属性 feature_importances_。我认为您必须使用 oob_score=True(在构造函数中)训练模型。特征重要性将告诉您哪些特征(数据矩阵列)具有影响力。要获取单词,您返回到 tfidf 向量化器并获取其 vocabulary_ 属性(注意尾随的下划线),这是从单词到列索引的字典。

有关 vocabulary_ 属性的解释,请参阅此帖子:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

关于python - 解释用于文本分类的随机森林模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34501296/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com