gpt4 book ai didi

scikit-learn - 使用分类特征和文本进行分类

转载 作者:行者123 更新时间:2023-12-01 03:38:30 24 4
gpt4 key购买 nike

我试图将电影分为两个任意类别。我得到了这部电影的 Storyboard 及其类型。当我使用 TfidfVectorizer 将我的概要转换为功能时,我需要使用电影的类型作为单独的功能。

我目前只是将流派附加到概要的文本并将其提供给分类器。

问题是这两个特征是不同类型的。当这些词被转换为 tfidf 矩阵时,我觉得应该区别对待这个类型,而不是像任何其他词一样。无论如何我可以做到这一点吗?

最佳答案

您应该使用 DictVectorizer ,对于每个可能的类别特征(流派),它会创建新的二元特征,并仅当您的电影来自该流派时才在相应的特征上设置 1。

from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'genre':'action'}, {'genre':'drama'}, {'genre':'comedy'}, {'genre':'drama'}]
v.fit_transform(D)
v.feature_names_

结果是:
array([[ 1.,  0.,  0.],
[ 0., 0., 1.],
[ 0., 1., 0.],
[ 0., 0., 1.]])

['genre=action', 'genre=comedy', 'genre=drama']

您也可以使用 FeatureUnion连接来自 TfidfVectorizer 和 DictVectorizer 的特征

关于scikit-learn - 使用分类特征和文本进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32621947/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com