gpt4 book ai didi

python - 如何使用 sklearn(卡方或 ANOVA)去除冗余特征

转载 作者:行者123 更新时间:2023-12-04 10:14:24 24 4
gpt4 key购买 nike

在特征选择步骤下,我们要识别相关特征并去除冗余特征。

根据我的理解,冗余特征是依赖特征。 (所以我们只想将特征之间的独立特征留给它们自己)

我的问题是关于使用 sklearn 删除冗余特征和方差分析/卡方检验。

从我读到的(和看到的例子)我们正在使用 SelectKBestSelectPercentile留下与目标相关的最佳功能( y )

但是我们可以在 chi2, f_classif 中使用这些方法吗?为了删除依赖的功能?

换句话说,我想用 sklearn 方法去除冗余特征。我们怎么做?

最佳答案

您可以使用 SelectKBest 为了使用提供的函数(例如卡方)对特征进行评分并获得 N 个最高评分特征。例如,为了保留前 10 个功能,您可以使用以下内容:

from sklearn.feature_selection import SelectKBest, chi2, f_classif

# chi-square
top_10_features = SelectKBest(chi2, k=10).fit_transform(X, y)

# or ANOVA
top_10_features = SelectKBest(f_classif, k=10).fit_transform(X, y)

然而,通常有许多方法和技术在特征减少的上下文中很有用。您通常需要根据您的数据、您正在训练的模型和您想要预测的输出来决定使用哪些方法。例如,即使您最终得到 20 个特征,您也需要检查每对特征之间的相关性是什么,如果它们高度相关,则删除一个。

以下函数将为您提供相关性最高的特征。您可以使用此输出进一步减少当前的变量列表:
def get_feature_correlation(df, top_n=None, corr_method='spearman',
remove_duplicates=True, remove_self_correlations=True):
"""
Compute the feature correlation and sort feature pairs based on their correlation

:param df: The dataframe with the predictor variables
:type df: pandas.core.frame.DataFrame
:param top_n: Top N feature pairs to be reported (if None, all of the pairs will be returned)
:param corr_method: Correlation compuation method
:type corr_method: str
:param remove_duplicates: Indicates whether duplicate features must be removed
:type remove_duplicates: bool
:param remove_self_correlations: Indicates whether self correlations will be removed
:type remove_self_correlations: bool

:return: pandas.core.frame.DataFrame
"""
corr_matrix_abs = df.corr(method=corr_method).abs()
corr_matrix_abs_us = corr_matrix_abs.unstack()
sorted_correlated_features = corr_matrix_abs_us \
.sort_values(kind="quicksort", ascending=False) \
.reset_index()

# Remove comparisons of the same feature
if remove_self_correlations:
sorted_correlated_features = sorted_correlated_features[
(sorted_correlated_features.level_0 != sorted_correlated_features.level_1)
]

# Remove duplicates
if remove_duplicates:
sorted_correlated_features = sorted_correlated_features.iloc[:-2:2]

# Create meaningful names for the columns
sorted_correlated_features.columns = ['Feature 1', 'Feature 2', 'Correlation (abs)']

if top_n:
return sorted_correlated_features[:top_n]

return sorted_correlated_features

其他选项可能是:
  • 缺失值的百分比
  • 与目标变量的相关性
  • 包括一些随机变量,看看它们是否进入后续的简化变量列表
  • 随着时间的推移功能稳定性

  • 正如我提到的,这实际上取决于您要实现的目标。

    关于python - 如何使用 sklearn(卡方或 ANOVA)去除冗余特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61146233/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com