gpt4 book ai didi

machine-learning - 用数字表示标称数据,同时保留数据语义

转载 作者:行者123 更新时间:2023-11-30 08:41:40 25 4
gpt4 key购买 nike

我有一个标称和数值特征的数据集。如果可能的话,我希望能够完全用数字表示这个数据集。

理想情况下,我能够对 n 元标称特征执行此操作。我意识到在二进制情况下,可以用整数表示两个标称值。然而,当一个名义特征可以有多种排列时,这怎么可能(如果有的话)?

最佳答案

有多种技术可以将分类属性“嵌入”为数字。

例如,给定一个可以取值 redgreenblue 的分类变量,我们可以简单地将其编码为 三个 属性 isRed={0,1}isGreen={0,1}isBlue={0,1} >.

虽然这很流行,并且显然会“起作用”,但许多人陷入了错误的假设,认为随后的数值处理技术会产生合理的结果。

如果你运行例如在以这种方式编码的数据集上使用 k 均值,之后的结果可能不会太有意义。特别是,如果您得到诸如 isRed=.3 isGreen=.2 isBlue=.5 之类的平均值 - 您无法合理地将其映射回原始数据。更糟糕的是,使用某些算法,您甚至可能会得到 isRed=0 isGreen=0 isBlue=0

我建议您尝试处理实际数据,并尽可能避免编码。如果您有一个好的工具,它将允许您使用混合数据类型。 不要尝试将所有内容都变成数值向量。这种数据的数学 View 非常有限,并且数据不会为您提供从该 View 中受益所需的所有数学假设(例如度量空间)。

关于machine-learning - 用数字表示标称数据,同时保留数据语义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20272828/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com