gpt4 book ai didi

python - 高基数数据的挑战

转载 作者:行者123 更新时间:2023-11-30 09:17:58 25 4
gpt4 key购买 nike

背景:我正在研究将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前会进入各个阶段。每个请求在标记为完成之前都会分配给不同的团队和个人。利用历史数据,我想在这些票证被标记为完成(成功或失败)之前,在最终状态 x 下为这些票证创建预测。

在各种特征中,处理记录的个人姓名和团队名称是分析这些数据的非常重要的因素。作为一个庞大的组织,我预计每天都会添加 5-10 个新名字。

历史数据

60k 记录(用于训练、验证和测试)拥有 10k 个独特的个人名称

当前数据总计 1k 条记录- 有 200 个个人名字

由于高基数数据(例如数量不固定且不断增长的个人姓名),我面临着挑战。1. 在做出实际预测的同时提出挑战——第一。当前数据的列数每次都会不同,并且永远不会与训练数据的特征长度匹配。- 所以我必须每次都训练我的模型,我想做出预测。2. 数据准备时的挑战 - 上述内容也对数据准备提出了挑战,因为现在我总是必须对完整数据和查询编码数据进行编码,以分为当前和 future 的数据。

抱歉,故事很长。

我在寻找什么?

有更好的方法吗?这些高且不断变化的维度是一种痛苦。关于如何处理它们,以避免每次都进行训练,有什么建议吗?

注意:我尝试使用 PCA 和自动编码器来呈现暗红色。 (对于我高度不平衡的数据集来说,结果不太好,所以我只处理高维度的数据)

最佳答案

既然你有像你所说的动态数据,你可以使用神经网络来识别和合并更新变量和数据。

您还应该使用类似的分类器

  1. CVParameterSelection:用于交叉验证参数选择。

  2. 部分:对于制作决策树来说,它非常有用,因为它适用于分而治之的规则。

  3. REP 树(修剪):通过分割错误值来减少输出错误

最后,当系统就位时,您可以运行预测模型!

关于python - 高基数数据的挑战,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50219738/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com