gpt4 book ai didi

machine-learning - 水流量 : How does H2O flow UI treat data types differently

转载 作者:行者123 更新时间:2023-11-30 09:51:07 26 4
gpt4 key购买 nike

具体来说,H2O 处理 enumstring 数据类型与“int” 数据类型有何不同> 和“数字”类型?

例如,假设我有一个二元分类器,它采用具有特征的输入样本

x1=(1 of 10 possible favorite ice cream flavors (enum))

x2=(some random phrase (string))

x3=(some number (int))

分类器在训练期间处理这些类型的方式有何不同?

将数据上传到 h2o Flow UI 时,我可以选择将某些数据类型(例如 enum)转换为“数字”。这让我认为,当我将“enum”保留为“enum”(不转换为“numerical' 类型),但我找不到有关差异的信息。

请澄清,谢谢。

最佳答案

“enum”类型是您要用于分类特征的编码类型。如果分类特征被编码为“枚举”,那么基于树的算法(例如随机森林和 GBM)将能够以智能方式处理这些特征。 RF 和 GBM 的大多数其他实现都迫使您对分类特征进行一次性扩展(扩展为 K 个虚拟列),但在 H2O 中,基于树的方法可以使用这些特征而无需任何扩展。可以使用 categorical_encoding 控制变量处理的确切方式。论证。

如果您有一个有序的分类变量,那么将其编码为“int”可能没问题,但是,这样做对模型性能的影响将取决于数据。

如果您要将“枚举”列转换为“数字”,则只需将每个类别编码为整数,您就会失去这些数字代表类别的概念(因此不建议这样做)。

除非您要从预测变量集中排除该列,否则不应在 H2O 中使用“字符串”类型。使用“字符串”列作为文本是有意义的,但您可能需要解析(例如标记化)该文本以生成将包含在预测变量集中的新数字或枚举特征。

关于machine-learning - 水流量 : How does H2O flow UI treat data types differently,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45025667/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com