gpt4 book ai didi

machine-learning - 识别区分类别时最有用的单词

转载 作者:行者123 更新时间:2023-11-30 09:10:08 25 4
gpt4 key购买 nike

在尝试区分两个文本类别(即积极或消极情绪等)时,是否可以使用 tfidf(Python 中的 tfidfvectorizer)来找出哪些单词最重要?例如,哪些词对于识别正类最重要,然后分别哪些词对于识别负类最有用?

最佳答案

您可以让 scikit learn 完成您的繁重工作 - 在二叉树上训练随机森林,提取分类器的特征重要性排名并使用它来获取最重要的单词:

clf = RandomForestClassifier()
clf.fit(data, labels)

importances = clf.feature_importances_
np.argsort(importances)[::-1]

feature_names = vectorizer.get_feature_names()
top_words = []

for i in xrange(100):
top_words.append(feature_names[indices[i]])

请注意,这只会告诉您最重要的单词是什么,而不是每个类别的含义。要说出每个单词对每个类别的含义,您可以对各个单词进行分类并查看它们的分类。

另一种选择是获取所有正/负数据样本,从中删除您试图理解的单词,并查看这如何影响样本的分类。

关于machine-learning - 识别区分类别时最有用的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41729043/

25 4 0