- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 sklearn.svm.SVC 来完成一些文本分类任务。我知道在使用 SVM 建模之前执行特征选择是一项有点值得怀疑的尝试,因为当使用全套特征时性能通常会达到峰值。从学术角度来看,了解不同的特征选择方法如何对特征进行不同的排名仍然很有趣。
经过一番挖掘,我发现 sklearn 中提供的特征选择指标非常有限,即 Chi-2。我只是想知道其他常用的指标,例如 IG 和 BNS 是否已在 sklearn(或其他地方)中实现,我可以直接将其用作 sklearn.feature_selection.SelectKBest() 中的评分函数?
最佳答案
InfoGain 尚未实现,但我认为 @larsmans 希望在未来的某个时候将其包含在内。我不知道BNS。
如果您愿意,请随时贡献。以下是贡献指南:
关于python - sklearn.feature_selection 中除 Chi-2 之外的特征选择指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14513932/
我有两个数据集:训练数据和测试数据。 train.shape = (307511, 122) 和 test.shape = (48744, 121)。这两个数据集都包含以下数据类型:int32、flo
我在sklearn特征选择模块中找到了用于特征选择的F_regression技术。我无法理解它使用的原理。给出的描述是 - 单变量线性回归检验。 快速线性模型,用于依次测试多个回归量的单个回归量的效果
我正在尝试获取我的数据集的所有特征的分数。 file_data = numpy.genfromtxt(input_file) y = file_data[:,-1] X = file_data[:,0
我降低了数据集的维度(pandas DataFrame)。 X = df.as_matrix() sel = VarianceThreshold(threshold=0.1) X_r = sel.fi
我正在尝试自动特征工程和选择,为此,我使用了 sklearn 中提供的波士顿房价数据集。 . from sklearn.datasets import load_boston import panda
我尝试使用 RFECV 进行特征选择,但每次都会给出不同的结果,交叉验证是否将样本 X 划分为随机 block 或顺序确定性 block ? 此外,为什么 grid_scores_ 和 score(X
我尝试使用 RFECV 进行特征选择,但每次都会给出不同的结果,交叉验证是否将样本 X 划分为随机 block 或顺序确定性 block ? 此外,为什么 grid_scores_ 和 score(X
我正在尝试使用 sklearn.svm.SVC 来完成一些文本分类任务。我知道在使用 SVM 建模之前执行特征选择是一项有点值得怀疑的尝试,因为当使用全套特征时性能通常会达到峰值。从学术角度来看,了解
我是一名优秀的程序员,十分优秀!