gpt4 book ai didi

python - 如何在选择前 5k 个特征后准备我的数据集。原始形状是 (24500,56000)。预期 =(24k,5k)

转载 作者:太空宇宙 更新时间:2023-11-03 21:04:49 24 4
gpt4 key购买 nike

我使用以下方法从 X_train 中选择前 5 k 个特征feature_importances_ 。按降序排列这 5 k 个特征的索引后,我需要相应地准备我的数据集X_train 形状为 (24000,56000)

# fit has to happen only on train 
X_train_essay_tfidf = vectorizer.fit_transform(X_train['clean_essays'].values)
clf=DecisionTreeClassifier(max_depth=5)
clf = clf.fit(X_train_essay_tfidf,y_train)

importances=clf.feature_importances_

我希望我的最终数据集的形状为 (24000,5000),由前 5K 个特征组成

最佳答案

您必须找到那些具有较高 feature_importance_ 值的前 5K 特征的索引。使用索引对原始 X_train 的特征进行子集化。

k = 5000
ind = clf.feature_importances_.argsort()[-k:][::-1]
X_train_shortlisted = X_train_essay_tfidf[:,ind]

现在您可以使用X_train_shortlisted作为最终分类器。

关于python - 如何在选择前 5k 个特征后准备我的数据集。原始形状是 (24500,56000)。预期 =(24k,5k),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55485231/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com