gpt4 book ai didi

python - SVC.coef_ 和样本中的不同数量的特征

转载 作者:行者123 更新时间:2023-11-30 09:10:40 24 4
gpt4 key购买 nike

我下载了数据。

news = datasets.fetch_20newsgroups(subset='all', categories=['alt.atheism', 'sci.space'])
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(newsgroups.data)
y = news.target
print(X.shape)

X 的形状为 (1786, 28382)

接下来我训练了模型并得到了 coef_ shape

clf = svm.SVC(kernel='linear', random_state=241, C = 1.0000000000000001e-05)
clf.fit(X, y)
data = clf.coef_[0].data
print(data.shape)

形状为(27189,)

为什么特征数量不同?

最佳答案

总之一切都很好,你的权重矩阵在 clf.coef_ 中。并且它具有有效的形状,它是一个常规的 numpy 数组(如果数据稀疏,则为 scipy 稀疏数组)。您可以对其进行所有需要的操作,对其进行索引等。您尝试过, .data 字段是保存数组的内部存储的属性,该存储可以具有不同的形状(因为它可能会忽略一些冗余等),但重点是您不应该将 numpy 数组的这个内部属性用于您的目的。它是为低级方法公开的,而不仅仅是读出

关于python - SVC.coef_ 和样本中的不同数量的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39674590/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com