gpt4 book ai didi

machine-learning - 如何处理不代表数量的数字

转载 作者:行者123 更新时间:2023-11-30 08:41:09 25 4
gpt4 key购买 nike

这是我的例子:

我有一家卖二手车的大商店。我想编写一个可以预测 future 汽车销售的程序。我想用人工神经网络来分析历史数据并解决这个问题。有多年销售历史。

网络输入:

  • 制造年份
  • 制造
  • 颜色
  • 传输
  • 英里
  • 价格

(简单点。)

网络输出:停留在市场的天数。

当我尝试设计神经网络时很快就发现了一个问题。变量颜色、制造和传输与其他 3 个变量不同。假设总共有 3 种颜色:白色、黑色和红色。3个制造商:丰田、福特、奔驰。3种变速箱:手动、自动和CVT。

好的,由于“颜色”不是数字,因此我无法将“颜色”变量输入为整数。将其作为字符串输入看起来也不是一个好主意。所以,我决定给每种颜色一个“id”。白色为 0,黑色为 1,红色为 2。然而,红色并不是黑色的两倍,红色也不比白色更接近黑色……制造和传输同样存在问题。

如何让神经网络知道这个整数代表一个 ID,而不是连续的数字或数量?最好使用一些简单的代码。

最佳答案

这就是我们所说的分类变量,避免您描述的问题(红色不是黑色的两倍)的典型方法之一是使用one hot编码,因此对于具有 K 个可能值的变量,您可以将其编码为 K 位长的二进制表示形式,例如:

v = {red, black, white}

导致

red -> [1 0 0]
black->[0 1 0]
white->[0 0 1]

等等。所以你有二元逻辑特征“这个物体是红色的吗?”等等。

关于machine-learning - 如何处理不代表数量的数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42234799/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com