gpt4 book ai didi

python - scikit-learn,将特征添加到向量化的文档集

转载 作者:太空狗 更新时间:2023-10-29 22:23:02 25 4
gpt4 key购买 nike

我从 scikit-learn 开始,我正在尝试将一组文档转换为我可以应用聚类和分类的格式。我已经看到了有关矢量化方法的详细信息,以及用于加载文件和索引其词汇表的 tfidf 转换。

但是,我有每个文档的额外元数据,例如作者、负责的部门、主题列表等。

如何向向量化函数生成的每个文档向量添加特征?

最佳答案

您可以使用 DictVectorizer 获取额外的分类数据,然后使用 scipy.sparse.hstack将它们结合起来。

关于python - scikit-learn,将特征添加到向量化的文档集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15257674/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com