gpt4 book ai didi

python - scikit-learn,向矢量化文档集添加功能

转载 作者:行者123 更新时间:2023-11-30 09:23:24 25 4
gpt4 key购买 nike

我从 scikit-learn 开始,尝试将一组文档转换为可以应用聚类和分类的格式。我已经了解了有关矢量化方法以及用于加载文件和索引其词汇表的 tfidf 转换的详细信息。

但是,我有每个文档的额外元数据,例如作者、负责的部门、主题列表等。

如何向矢量化函数生成的每个文档矢量添加特征?

最佳答案

您可以使用 DictVectorizer 获取额外的分类数据,然后使用 scipy.sparse.hstack将它们组合起来。

关于python - scikit-learn,向矢量化文档集添加功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24003075/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com