- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在 UCI 银行营销数据上构建决策树和随机森林分类器 -> https://archive.ics.uci.edu/ml/datasets/bank+marketing .数据集中有许多分类特征(具有字符串值)。
在 spark ml 文档中,提到可以通过使用 StringIndexer 或 VectorIndexer 进行索引将分类变量转换为数字。我选择使用 StringIndexer(向量索引需要向量特征和向量汇编器,将特征转换为向量特征只接受数字类型)。使用这种方法,分类特征的每个级别都将根据其频率分配数值(0 表示类别特征的最频繁标签)。
我的问题是随机森林或决策树的算法如何理解新特征(源自分类特征)与连续变量不同。索引特征在算法中会被视为连续的吗?这是正确的方法吗?或者我应该继续使用 One-Hot-Encoding 来处理分类特征。
我从这个论坛上阅读了一些答案,但最后一部分我没有弄清楚。
最佳答案
应该对类别 > 2 的分类变量进行一次热编码。
要理解为什么,您应该知道分类数据的子类别之间的区别:Ordinal data
和 Nominal data
.
序数数据 :这些值在它们之间有某种排序。例子:
客户反馈(优秀、好、中立、差、非常差)。正如您所看到的,它们之间有明确的顺序(优秀 > 好 > 中性 > 差 > 非常差)。在这种情况下 StringIndexer
单独用于建模目的就足够了。
标称数据 :这些值之间没有定义的顺序。
例如:颜色(黑色,蓝色,白色,...)。在这种情况下 StringIndexer
只有不是 充足的。和 One Hot Encoding
在 String Indexing
之后需要.
后 String Indexing
让我们假设输出是:
id | colour | categoryIndex
----|----------|---------------
0 | black | 0.0
1 | white | 1.0
2 | yellow | 2.0
3 | red | 3.0
One Hot Encoding
,机器学习算法将假设:
red > yellow > white > black
,我们知道这不是真的。
OneHotEncoder()
将帮助我们避免这种情况。
Will indexed feature be considered as continuous in the algorithm?
Is it the right approach? Or should I go ahead with One-Hot-Encoding for categorical features
OneHot Encoding
,大多数 ML 算法都需要它。
关于apache-spark-mllib - 如何在 spark ml 中处理决策树、随机森林的分类特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44959122/
我们正在运行 MarkLogic 9.0-11 版本 3 节点集群,并且 MarkLogic 安装在“/var/opt/MarkLogic/”目录中,我们创建了“/var/opt/MarkLogic/
我有一片任意高度的森林,大致像这样: let data = [ { "id": 2, "name": "AAA", "parent_id": null, "short_name": "A" },
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 7 年前。 Improve
我有一个巨大的深度字典,代表森林(许多非二叉树),我想处理森林并创建一个包含森林所有可能关系的文本文件,例如给定字典: {'a': {'b': {'c': {}, 'd': {}}, 'g': {}}
在我的 Android 应用程序中,我包含了谷歌地图。现在我想获取有关您周围地区的信息。例如,你是在公园/森林/海滩……所以我基本上想要一个用“水”回答输入坐标 53°33'40.9"N 10°00'
如果我有下表: Member_Key Member_Name col1 Mem1 col2 Mem2 col3 Mem3 col4
继续我的老问题: Writing nested dictionary (forest) of a huge depth to a text file 现在我想把森林遍历写成BFS风格:我有一个巨大的深
我有一个多域环境(事件目录林),例如subdomain1.mydomain.com, subdomain2.mydomain.com 其中 mydomain.com 是根 AD 域 (GC) 和 su
我想知道是否有可能在 Google map 或 Bing Mag 2D/3D map 上恢复地形类型(山脉、森林、水域、平原等...) 。为了根据玩家在现实世界中的位置生成 map !我认为可用 AP
我是一名优秀的程序员,十分优秀!