machine-learning - 缩放决策树中的数据会改变我的结果吗？-6ren

machine-learning - 缩放决策树中的数据会改变我的结果吗？

转载作者：行者123 更新时间：2023-11-30 08:49:55

24

4

我知道决策树不会受到数据缩放的影响，但是当我在决策树中缩放数据时，它会给我带来糟糕的性能(糟糕的召回率、精度和准确性)

但是当我不扩展所有性能指标时，决策树会给我一个惊人的结果。怎么会这样？

注意:我使用 GridSearchCV 但我不认为交叉验证是我的问题的原因。这是我的代码:

scaled = MinMaxScaler()

pca = PCA()

bestK = SelectKBest()

combined_transformers = FeatureUnion([ ("scale",scaled),("best", bestK),         
("pca", pca)])

clf = tree.DecisionTreeClassifier(class_weight= "balanced")

pipeline = Pipeline([("features", combined_transformers), ("tree", clf)])

param_grid = dict(features__pca__n_components=[1, 2,3],
      features__best__k=[1, 2,3],
      tree__min_samples_split=[4,5],
      tree__max_depth= [4,5],
     )

grid_search = GridSearchCV(pipeline, param_grid=param_grid,scoring='f1')
grid_search.fit(features,labels)

使用缩放函数 MinMaxScaler() 我的性能是:

f1 =  0.837209302326
recall =  1.0
precision =  0.72
accuracy =  0.948148148148

但没有缩放:

f1 =  0.918918918919
recall =  0.944444444444
precision =  0.894736842105
accuracy =  0.977777777778

最佳答案

我对 scikit-learn 不熟悉，所以如果我误解了什么，请原谅。

首先，PCA是否标准化了特征？如果不这样做，它将为缩放和非缩放输入提供不同的结果。

其次，由于样本分割的随机性，CV 在每次运行中可能会给出不同的结果。这会影响结果，特别是对于小样本量。此外，如果样本量较小，结果可能并没有那么不同。

我有以下建议:

缩放可以被视为额外的超参数，可以通过 CV 进行优化。
执行额外的 CV(称为嵌套 CV)或保留来评估性能。这是通过保留一个测试集，使用训练数据上的 CV 选择模型，然后评估其在测试集上的性能来完成的(如果是嵌套 CV，您可以对所有折叠重复执行此操作，并对性能估计进行平均)。当然，您的最终模型应该在整个数据集上进行训练。一般来说，您不应该使用用于模型选择的 CV 的性能估计，因为它会过于乐观。

关于machine-learning - 缩放决策树中的数据会改变我的结果吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37711205/

24

4

0

文章推荐： lua - 在 Torch 中添加自定义损失函数

文章推荐： php - 无法将 Azure ML API 与 PHP 集成

文章推荐： javascript - Java 与 RWeka 包

testing - 决策/条件覆盖
是否有显示测试用例数量以提供决策/条件覆盖率的工具？例如: if(x>0) if(x0) 3 个案例足以覆盖决策/条件。 if(x>0) if(x0) 4 个案例足以覆盖决策/条件。这是真的吗？
c++ - 决策、复杂条件和规划易于维护
我正在尝试找到一种优雅的方式来实现易于维护的决策算法，因为决策的条件可能经常变化。我将尝试更具体地举一个例子: 假设我正在尝试管理一家餐厅厨房的 cooking 厨师团队。每个厨师都知道如何 co
android - 决策 : ListView or ScrollView
我需要一个 Android Activity ，它应该显示一个字段，如带有图像的标题和其下方的几个动态生成的项目(我认为是 1 到 100)。如果我不想让 headsection 滚动，我会使用 Li
algorithm - 最大值(value)决策
我正在编写函数以从值列表中提供最大值(value)。我的问题是如果所有值都相同怎么办？例如， 30,29,34,45 简单。最大值为 45。现在， 20,20,20,20 这里的最大值是20吗？或者没
json - Postgres 决策、JSON 或额外的列？
我需要知道哪个检索事件日志的速度更快，但我在比较中找不到:假设需要查找的所有列都有btree索引，需要查找的json对象中的所有键都有GIN索引。 case 1: ActivityID (in
ios - Swift 自定义单元格布局 TableView 决策
我需要在我的 iPhone 应用程序中显示一个表格: neither the number of cells nor the contents are known at compile time, b
mysql - 数据库中的数据太多 - 需要做出 "replication"决策
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 9 年前。 Improve this ques
c++ - 物理引擎的继承/接口(interface)决策
这是针对在 MinGW/Windows 上使用 SDL 的小型游戏项目。我正在研究一个物理引擎，我的想法是拥有一个Physics::Object，所有物理对象都应该派生自它，并且它会在全局 Phys
c# - LINQ 查询中的 If Else 决策
我有一个小的 LINQ 查询来填充下拉控件(WinForms Telerik 应用程序)，其中的数据行显示两个值(ITNBR 和描述): var query = from i in db.ItemMa
java - 由于递归规则调用，ANTLR3 错误规则具有非 LL(*) 决策
我正在尝试使用 antlr 3 为我的语法生成词法分析器和解析器。有人可以解释这个错误是什么意思吗？ error(211): T.g:14:6: [fatal] rule stmt has non-L
r - 更改 R 方图中的标签位置(决策/回归树)
partykit包很好地表示了决策树。我遇到的唯一问题是标签很长然后它们重叠。是否可以移动这些标签以防止它(见下图中的蓝色箭头)？ library("rpart") library("partykit
c# - _Layout.cshtml 上的 MVC 决策
所以我环顾四周，似乎找不到合适的解决方案来解决我的问题。问题在我的布局中，我希望能够根据数据库中的内容选择在运行时是否存在导航项: 当前布局(导航栏) @Html.Acti
python - 在 jupyter notebook 中显示 scikit 决策 TreeMap
我目前正在创建一个机器学习 jupyter 笔记本作为一个小项目，并希望显示我的决策树。但是，我能找到的所有选项都是导出图形然后加载图片，这相当复杂。所以想问问有没有办法不用导出加载图形，直接显示我
ANTLR:由于可从 alts 1,2 访问递归规则调用，因此规则 token 具有非 LL(*) 决策
grammar AdifyMapReducePredicate; PREDICATE : PREDICATE_BRANCH | EXPRESSION ; PREDICA

首页

博学

6Ren·AI

商城

machine-learning - 缩放决策树中的数据会改变我的结果吗？