gpt4 book ai didi

python - 如何让 scikit 从预标记文档中计算文档术语矩阵?

转载 作者:行者123 更新时间:2023-11-30 09:48:26 25 4
gpt4 key购买 nike

我必须使用预先标记化的文档,我可以将其加载到字符串列表中。我想使用 scikit 的 CountVectorizer计算它们的文档术语矩阵。这可能吗?

或者我应该自己手动构建/计算 docterm 矩阵?

我想为此使用 scikit 的原因是,上述内容需要集成到使用 scikit CountVectorizer 和 BinomialNB 训练的程序中。 。

最佳答案

在下面的代码中,text_list 是“列表的列表”,换句话说,text_list = [[doc1],[doc2],...,[docn]]。您可以获得一个稀疏矩阵,其中包含语料库中每个文档的术语及其频率。

from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
TermCountsDoc = count_vect.fit_transform(text_list)
Terms = np.array(count_vect.vocabulary_.keys())
T= TermCountsDoc.todense() #in case you need to transform it to dense matrix

关于python - 如何让 scikit 从预标记文档中计算文档术语矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49152607/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com