作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我必须使用预先标记化的文档,我可以将其加载到字符串列表
中。我想使用 scikit 的 CountVectorizer计算它们的文档术语矩阵。这可能吗?
或者我应该自己手动构建/计算 docterm 矩阵?
我想为此使用 scikit 的原因是,上述内容需要集成到使用 scikit CountVectorizer 和 BinomialNB 训练的程序中。 。
最佳答案
在下面的代码中,text_list 是“列表的列表”,换句话说,text_list = [[doc1],[doc2],...,[docn]]。您可以获得一个稀疏矩阵,其中包含语料库中每个文档的术语及其频率。
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
TermCountsDoc = count_vect.fit_transform(text_list)
Terms = np.array(count_vect.vocabulary_.keys())
T= TermCountsDoc.todense() #in case you need to transform it to dense matrix
关于python - 如何让 scikit 从预标记文档中计算文档术语矩阵?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49152607/
我是一名优秀的程序员,十分优秀!