- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
背景:我正在研究将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前会进入各个阶段。每个请求在标记为完成之前都会分配给不同的团队和个人。利用历史数据,我想在这些票证被标记为完成(成功或失败)之前,在最终状态 x 下为这些票证创建预测。
在各种特征中,处理记录的个人姓名和团队名称是分析这些数据的非常重要的因素。作为一个庞大的组织,我预计每天都会添加 5-10 个新名字。
历史数据
60k 记录(用于训练、验证和测试)拥有 10k 个独特的个人名称
当前数据总计 1k 条记录- 有 200 个个人名字
由于高基数数据(例如数量不固定且不断增长的个人姓名),我面临着挑战。1. 在做出实际预测的同时提出挑战——第一。当前数据的列数每次都会不同,并且永远不会与训练数据的特征长度匹配。- 所以我必须每次都训练我的模型,我想做出预测。2. 数据准备时的挑战 - 上述内容也对数据准备提出了挑战,因为现在我总是必须对完整数据和查询编码数据进行编码,以分为当前和 future 的数据。
抱歉,故事很长。
我在寻找什么?
有更好的方法吗?这些高且不断变化的维度是一种痛苦。关于如何处理它们,以避免每次都进行训练,有什么建议吗?
注意:我尝试使用 PCA 和自动编码器来呈现暗红色。 (对于我高度不平衡的数据集来说,结果不太好,所以我只处理高维度的数据)
最佳答案
既然你有像你所说的动态数据,你可以使用神经网络来识别和合并更新变量和数据。
您还应该使用类似的分类器
CVParameterSelection:用于交叉验证参数选择。
部分:对于制作决策树来说,它非常有用,因为它适用于分而治之的规则。
REP 树(修剪):通过分割错误值来减少输出错误
最后,当系统就位时,您可以运行预测模型!
关于python - 高基数数据的挑战,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50219738/
我想得到 id a b c -------------------- 1 1 100 90 6 2 50 100 ...来自: id a
让我们看看,我有这段将 NFA 自动转换为 DFA 的代码;这是我编写的;我发现了一个“bug”; printf()指令 这意味着像这样“printf("",X); ”以防止出现错误 没有要在屏幕上打
我有一些文本图像,但它们是弯曲的,呈圆形或波浪形。我需要把它们弄直。我尝试使用OCR提取文本,但是它们效率低下,需要直接的图像。 我附上测试图片: 我需要覆盖这两个最小区域。 请建议一些路径或使用
data1=data.frame("StudentID"=c(1,1,1,2,2,2,2,3,3,3,3), "Class"=c(1,1,1,1,1,1,1,2,2,2,2),
我的问题已在 java draw line as the mouse is moved 中提到过然而,我对这本书的了解还不够深入,无法涵盖 JPanels、JFrames 和 Points,正如提出这
这是我上一个问题 here. 的后续问题那里发布的答案实际上不起作用。所以这就是挑战。您将获得以下代码(假设包含 jQuery): $("input").val(**YOUR PHP /
以下是C语言中链表的语法,部分内容 struct tag-name { type member1; type member2; ....... ....... struc
我面临以下挑战性问题: There are a circle of 100 baskets in a room; the baskets are numbered in sequence from 1
我有一个这样的结构: public struct MyStruct { public string Name; public bool Process; } 我有一个这样的
假设我有: var directions = [ "name", "start_address", "end_address", "order_date" ]; 我正在尝试找到一种巧妙、快速的方法来将
我正在用 Javascript 重做 Project Euler 挑战。任务是获取最大的回文数( https://projecteuler.net/problem=4 )。现在我得到以下代码: var
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
第一问:有没有可能有一个不可见的矩形? 问题 2:是否可以在方法上调用方法?见下文。 var canvas = document.getElementById("canvas"); var ctx =
问题: 给定一串数字,计算是任何回文的字谜的子词(一致的子序列)的数量。 例子: 对于输入字符串“02002”,结果应该是 11,即: “0”、“2”、“0”、“0”、“2”、“00”、“020”、“
用户A-用户B-用户C-用户D-用户F 用'-'连接的用户互相认识。 我需要一个算法来完成这两项任务: 计算从UserX到UserY的路径 对于 UserX,计算距离不超过 3 步的所有用户。 有没有
根据我的教授介绍。对于数据库理论,没有任何例子可以说明这种情况何时会出现,考虑到它是理论的特定部分,这似乎有点奇怪。 我正在寻找的只是一个示例关系,它是第 4 范式并且可以执行第 5 范式分解。或者(
给定任务sameEnds来自 CodingBat: 给定一个字符串,返回出现在字符串开头和结尾且不重叠的最长子字符串。例如,sameEnds("abXab") 是 "ab"。 sameEnds("ab
在我的 welcome#index 页面上,有一个按钮可以远程(或者我应该说异步)为 Article 编写新的 Comment ),使用 AJAX。 它工作得很好,只是当使用rails迭代一篇文章时,
希望每个人都有美好的一天。 这是我在 Stackoverflow 上发表的第一篇文章! 我刚刚完成了 Codeacademy 上的 javascript 类(class),并且也阅读了几本相关书籍。现
挑战是删除数字末尾的零。两个数字内的零是可以的。例如: 14000 == 14 //all end zeros removed 10300 == 103 // all end zeros remove
我是一名优秀的程序员,十分优秀!