gpt4 book ai didi

amazon-web-services - AWS 机器学习数据

转载 作者:行者123 更新时间:2023-11-30 08:34:54 26 4
gpt4 key购买 nike

我正在使用 AWS 机器学习回归来预测特定工作日/时间在餐厅排队的等待时间。今天我有大约 800k 数据。

示例数据:

restaurantID(行ID)weekDay(分类)time(分类)tablePeople(数字) waitingTime(数字 - 目标)
1                               sun                               21:29                   2                                23                                           
2                               周五                               20:13                    d>4                                  43                                           
...

<小时/>

我有两个问题:

1)我应该使用分类时间还是数字时间?最好分成两个字段:分钟和秒?

2)我希望在同一模型中获得所有餐厅的预测。

示例:我希望发送 rowID 标识符,它会根据每个餐厅的数据返回不同的预测(忽略其他数据)。

我尝试过,但它对任何 rowID 返回相同的预测。为什么?

我应该为每家餐厅建立一个模型吗?

最佳答案

您设置模型的方式存在几个问题

1)你所拥有的时间永远不应该是绝对的。您的模型将时间 12:29 和 12:30 视为两个完全独立的属性。因此,它永远不会使用在 12:29 了解到的事实来预测 12:30 会发生什么。在您的情况下,您应该将时间设置为数字。不确定 amazon ML 是否可以自动为您转换。如果不是,只需将小时乘以 60 再加上分钟即可。另一件有趣的事情是通过选择半小时或更长时间的间隔来划分您的时间。您可以通过将 (h*60+m) 除以某个数字来完成此操作,具体取决于您想要多少个桶。因此,尝试 120 以获得 2 小时的间隔。一般来说,您拥有的数据越多,您可以拥有的间隔就越小。关键是每个桶中有很多样本。

2)您应该真正考虑从输入数据中删除restaurantID。放在那里会导致模型过度拟合。因此,它无法根据从 id:3 或 id:9 的餐馆学到的事实来预测 id:5 的餐馆。如果您有关于每家餐厅的大量数据并且您不关心将预测外推到不在训练集中的餐厅,那么拥有餐厅 ID 可能没问题。

3)您永远不会发送restaurantID来预测有关它的数据。通常的工作方式是,你需要选择你想要预测的内容。在您的情况下,“waitingTime”可能是最有用的属性。因此,您需要发送 weekDay、时间和人数,模型将输出等待时间。

关于amazon-web-services - AWS 机器学习数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42035831/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com