python - 如何使用 scikit-learn 中的信息增益度量选择 Dataframe 中的最佳特征-6ren

python - 如何使用 scikit-learn 中的信息增益度量选择 Dataframe 中的最佳特征

转载作者：行者123 更新时间：2023-12-03 23:43:27

24

4

关闭。这个问题需要debugging details .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

去年关闭。

Improve this question

我想使用信息增益度量(scikit-learn 中的互信息)确定数据帧的 10 个最佳特征，并将它们显示在表格中(根据信息增益获得的分数按升序排列)。
在本例中，features是包含所有有趣的训练数据的数据框，可以判断餐厅是否会关闭。

# Initialization of data and labels
x = features.copy () # "x" contains all training data
y = x ["closed"] # "y" contains the labels of the records in "x"

# Elimination of the class column (closed) of features
x = x.drop ('closed', axis = 1)

# this is x.columns, sorry for the mix french and english
features_columns = ['moyenne_etoiles', 'ville', 'zone', 'nb_restaurants_zone',
       'zone_categories_intersection', 'ville_categories_intersection',
       'nb_restaurant_meme_annee', 'ecart_type_etoiles', 'tendance_etoiles',
       'nb_avis', 'nb_avis_favorables', 'nb_avis_defavorables',
       'ratio_avis_favorables', 'ratio_avis_defavorables',
       'nb_avis_favorables_mention', 'nb_avis_defavorables_mention',
       'nb_avis_favorables_elites', 'nb_avis_defavorables_elites',
       'nb_conseils', 'nb_conseils_compliment', 'nb_conseils_elites',
       'nb_checkin', 'moyenne_checkin', 'annual_std', 'chaine',
       'nb_heures_ouverture_semaine', 'ouvert_samedi', 'ouvert_dimanche',
       'ouvert_lundi', 'ouvert_vendredi', 'emporter', 'livraison',
       'bon_pour_groupes', 'bon_pour_enfants', 'reservation', 'prix',
       'terrasse']

# normalization
std_scale = preprocessing.StandardScaler().fit(features[features_columns])
normalized_data = std_scale.transform(features[features_columns])
labels = np.array(features['closed'])

# split the data 
train_features, test_features, train_labels, test_labels = train_test_split(normalized_data, labels, test_size = 0.2, random_state = 42)

labels_true = ?
labels_pred = ?

# I dont really know how to use this function to achieve what i want
from sklearn.feature_selection import mutual_info_classif
from sklearn.datasets import make_classification



# Get the mutual information coefficients and convert them to a data frame
coeff_df =pd.DataFrame(features,
                         columns=['Coefficient'], index=x.columns)

coeff_df.head()

使用相互信息分数来实现这一目标的正确语法是什么？

最佳答案

调整后的_ mutual_info_score将真实标签与来自分类器的标签预测进行比较。两个标签数组必须具有相同的形状 (nsamples,)。
您需要 Scikit-Learn 的 mutual_info_classif为了你想要达到的目标。将特征数组和对应的标签传递给mutual_info_classif，得到每个特征与目标之间估计的互信息。

import numpy as np
import pandas as pd

from sklearn.feature_selection import mutual_info_classif
from sklearn.datasets import make_classification

# Generate a sample data frame
X, y = make_classification(n_samples=1000, n_features=4,
                           n_informative=2, n_redundant=2,
                           random_state=0, shuffle=False)
feature_columns = ['A', 'B', 'C', 'D']
features = pd.DataFrame(X, columns=feature_columns)

# Get the mutual information coefficients and convert them to a data frame
coeff_df =pd.DataFrame(mutual_info_classif(X, y).reshape(-1, 1),
                         columns=['Coefficient'], index=feature_columns)

输出

features.head(3)
Out[43]: 
          A         B         C         D
0 -1.668532 -1.299013  0.799353 -1.559985
1 -2.972883 -1.088783  1.953804 -1.891656
2 -0.596141 -1.370070 -0.105818 -1.213570

# Displaying only the top two features. Adjust the number as required.
coeff_df.sort_values(by='Coefficient', ascending=False)[:2]

Out[44]: 
   Coefficient
B     0.523911
D     0.366884

关于python - 如何使用 scikit-learn 中的信息增益度量选择 Dataframe 中的最佳特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64343345/

24

4

0

文章推荐： SwiftUI Apple Watch 应用程序在发布版本时崩溃(仅限系列 3)

文章推荐： reactjs - 带有 React 测试库的测试输入搜索框

文章推荐： http - 缓存控制不返回 304

ssas - 如何根据当前行和切片器上下文编写 DAX 度量？
背景信息:对于国际销售表中的每一行，我需要检索过去特定日期的美元汇率，以便分析人员确定汇率变化的影响关于销售数字。然后，我将使用今天的汇率与过去的汇率之间的差值，并将其乘以销售额来确定影响。实际问题
powerbi - 根据切片器值选择 DAX 度量
是否可以通过切片器值动态选取表中定义的适当 DAX 度量？源表: +----------------+------------+ | col1 | col2 | +-
未显示子项的 Android ViewFlipper 度量
我有一个 ViewFlipper在我的主要 Activity View 上。在 onCreate 我实例化添加到 ViewFlipper 的 View 。之后，我将显示的 child 设置为第一个。当
python - 如何计算多标签分类中的 F1 度量？
我正在研究句子类别检测问题。每个句子可以属于多个类别例如: "It has great sushi and even better service." True Label: [[ 0. 0.
cluster-analysis - 计算聚类的 F 度量
谁能帮我一起计算F-measure？我知道如何计算召回率和准确率，但不知道对于给定的算法如何计算一个 F-measure 值。例如，假设我的算法创建了 m 个集群，但我知道相同数据有 n 个集群(由
machine-learning - 为什么不能从宏精度和召回率计算宏 F1 度量？
我对通过宏精度和手动召回计算宏 f1-score 感兴趣。但结果并不相等。代码中 f1 和 f1_new 的最终公式有什么区别？ from sklearn.metrics import precisi
select - 基于最后一列值和筛选器的 Power BI 度量
我有一张记录了一些人体重的表格: Year Person Weight 2010 Mike 75 2010 Laura 60 2011 Mike 80 201
train() 中的 ROC 度量，插入符包
df分为训练数据帧和测试数据帧。训练数据帧分为训练数据帧和测试数据帧。因变量Y是二进制(因子)，值为 0 和 1。我试图用此代码(神经网络，插入符号包)预测概率: library(caret) mod
python - 如何在 Keras 中使用 Hausdorff 度量？
我想使用 Hausdorff 距离作为训练指标，但我刚刚找到了 Weighted_Hausdorff_loss并将其用作医学图像分割的指标。 import math import numpy as n
r - R 中的精度、召回率和 f 度量
我有一段时间没有使用 R，所以也许我只是不习惯它，但是..我在 R 中有一个表，有两个列，第一个有预测值(值可以是 0 或 1 )，第二个具有实际值(也是 0 或 1)。我需要找到召回率、精度和 f
metrics - 使用 Statsd 聚合 Collectd 度量
我正在使用 Collectd 收集系统指标。我正在小范围内收集测量值以获得准确的值。但是我想使用 Statsd 在本地聚合这些值。 Statsd 应该聚合这些值并以更长的时间间隔将它们发送到 libr
machine-learning - 在多类分类中，如何计算每个类的 F1 度量？
我使用SciKit作为一个库来处理分类算法，例如:NB、SVM。这是一个非常漂亮的binary classification implementation对于“垃圾邮件和HAM”电子邮件:
algorithm - 度量 TSP 的 MST 启发式的严格示例
我正在寻找 MST 启发式算法的严格示例，它是度量旅行商问题的 2 近似算法。这个算法在网上很容易找到，但我找不到具体的例子。我所说的严格示例是指给定算法返回的解决方案比最佳解决方案差 2 倍的示例
looker-studio - Data Studio 案例函数度量/维度错误
我使用 Data Studio 中的 Case 函数来确定某个值是否高于或低于 6,000 英镑，并根据输出呈现两个数字之一。这两个数字是计算字段。第一个案例陈述: (大于或小于)- CASE WH
rrdtool - Ganglia/RRD 工具中的 load_one 度量 Y 轴是什么意思？
我正在使用 Ganglia + RRDTool为 monitoring a web farm .很多图很清楚，但是当我看到load_one metric , 我 don't have Y-axis l
list - Power BI - 用于引用值列表的 DAX 度量。计算每个经纪人的净营业额 - 更优雅的解决方案？
以下是股票交易数据的简化版本。 StockData = DATATABLE ( "STOCK", STRING, "Date", DATETIME, "Buyer", STRI
ASP.NET Core 7: using OpenTelemetry to send traces/metrics to Grafana(ASP.NET Core 7：使用开放遥测向Grafana发送跟踪/度量)
我正在尝试将ASP.NET Core 7应用程序中的度量/跟踪发送到Grafana。。这是我的《码头工人》作文文件。。下面是我的收集器配置：。下面是配置OpenTelemeter的服务集合扩展方法。。
ASP.NET Core 7: using OpenTelemetry to send traces/metrics to Grafana(ASP.NET Core 7：使用开放遥测向Grafana发送跟踪/度量)
我正试图从我的ASP.NET Core 7应用程序向Grafana发送度量/跟踪。。这是我的《码头工人》作文文件。。下面是我的收集器配置：。下面是配置OpenTelemeter的服务集合扩展方法。。首

首页

博学

6Ren·AI

商城

python - 如何使用 scikit-learn 中的信息增益度量选择 Dataframe 中的最佳特征