python - 高基数数据的挑战-6ren

python - 高基数数据的挑战

转载作者：行者123 更新时间：2023-11-30 09:17:58

25

4

背景:我正在研究将票务系统数据中的数据分类为失败或成功的请求。请求在完成之前会进入各个阶段。每个请求在标记为完成之前都会分配给不同的团队和个人。利用历史数据，我想在这些票证被标记为完成(成功或失败)之前，在最终状态 x 下为这些票证创建预测。

在各种特征中，处理记录的个人姓名和团队名称是分析这些数据的非常重要的因素。作为一个庞大的组织，我预计每天都会添加 5-10 个新名字。

历史数据

60k 记录(用于训练、验证和测试)拥有 10k 个独特的个人名称

当前数据总计 1k 条记录- 有 200 个个人名字

由于高基数数据(例如数量不固定且不断增长的个人姓名)，我面临着挑战。1. 在做出实际预测的同时提出挑战——第一。当前数据的列数每次都会不同，并且永远不会与训练数据的特征长度匹配。- 所以我必须每次都训练我的模型，我想做出预测。2. 数据准备时的挑战 - 上述内容也对数据准备提出了挑战，因为现在我总是必须对完整数据和查询编码数据进行编码，以分为当前和 future 的数据。

抱歉，故事很长。

我在寻找什么？

有更好的方法吗？这些高且不断变化的维度是一种痛苦。关于如何处理它们，以避免每次都进行训练，有什么建议吗？

注意:我尝试使用 PCA 和自动编码器来呈现暗红色。 (对于我高度不平衡的数据集来说，结果不太好，所以我只处理高维度的数据)

最佳答案

既然你有像你所说的动态数据，你可以使用神经网络来识别和合并更新变量和数据。

您还应该使用类似的分类器

CVParameterSelection:用于交叉验证参数选择。
部分:对于制作决策树来说，它非常有用，因为它适用于分而治之的规则。
REP 树(修剪):通过分割错误值来减少输出错误

最后，当系统就位时，您可以运行预测模型!

关于python - 高基数数据的挑战，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50219738/

25

4

0

文章推荐： python - 管道预测 X 的形状与拟合期间的形状不同

文章推荐： python - MultiLabelBinarizer 可以表示值的计数吗？

文章推荐： javascript - 将结果写入nodeJS中的csv文件

sql问题，挑战
我想得到 id a b c -------------------- 1 1 100 90 6 2 50 100 ...来自: id a
你能解释一下吗，挑战？
让我们看看，我有这段将 NFA 自动转换为 DFA 的代码；这是我编写的；我发现了一个“bug”； printf()指令这意味着像这样“printf("",X); ”以防止出现错误没有要在屏幕上打
python - 挑战:使用python提取弯曲文本
我有一些文本图像，但它们是弯曲的，呈圆形或波浪形。我需要把它们弄直。我尝试使用OCR提取文本，但是它们效率低下，需要直接的图像。我附上测试图片: 我需要覆盖这两个最小区域。请建议一些路径或使用
从长到宽的 R 挑战
data1=data.frame("StudentID"=c(1,1,1,2,2,2,2,3,3,3,3), "Class"=c(1,1,1,1,1,1,1,2,2,2,2),
关于允许用户画线的 Java 挑战
我的问题已在 java draw line as the mouse is moved 中提到过然而，我对这本书的了解还不够深入，无法涵盖 JPanels、JFrames 和 Points，正如提出这
php - 挑战 - 安全而准确地逃离此文本
这是我上一个问题 here. 的后续问题那里发布的答案实际上不起作用。所以这就是挑战。您将获得以下代码(假设包含 jQuery): $("input").val(**YOUR PHP /
挑战 Node 语法
以下是C语言中链表的语法，部分内容 struct tag-name { type member1; type member2; ....... ....... struc
Javascript 挑战——最后一个苹果是哪个篮子？
我面临以下挑战性问题: There are a circle of 100 baskets in a room; the baskets are numbered in sequence from 1
c# - LINQ 挑战
我有一个这样的结构: public struct MyStruct { public string Name; public bool Process; } 我有一个这样的
JavaScript 挑战。我如何使用数组实现这一点？
假设我有: var directions = [ "name", "start_address", "end_address", "order_date" ]; 我正在尝试找到一种巧妙、快速的方法来将
Javascript:挑战 - 没有得到正确的答案
我正在用 Javascript 重做 Project Euler 挑战。任务是获取最大的回文数( https://projecteuler.net/problem=4 )。现在我得到以下代码: var
JQuery 挑战 - 在点击事件上绘制计数标记
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
HTML5 Canvas 挑战!
第一问:有没有可能有一个不可见的矩形？问题 2:是否可以在方法上调用方法？见下文。 var canvas = document.getElementById("canvas"); var ctx =
Codility 挑战 - 为什么这个解决方案有效？
问题: 给定一串数字，计算是任何回文的字谜的子词(一致的子序列)的数量。例子: 对于输入字符串“02002”，结果应该是 11，即: “0”、“2”、“0”、“0”、“2”、“00”、“020”、“
sql - 挑战，如何实现六度分离的算法？
用户A-用户B-用户C-用户D-用户F 用'-'连接的用户互相认识。我需要一个算法来完成这两项任务: 计算从UserX到UserY的路径对于 UserX，计算距离不超过 3 步的所有用户。有没有
database - 挑战!!可以执行第五范式分解的有效第四范式关系示例
根据我的教授介绍。对于数据库理论，没有任何例子可以说明这种情况何时会出现，考虑到它是理论的特定部分，这似乎有点奇怪。我正在寻找的只是一个示例关系，它是第 4 范式并且可以执行第 5 范式分解。或者(
java - Codingbat 挑战 : sameEnds
给定任务sameEnds来自 CodingBat: 给定一个字符串，返回出现在字符串开头和结尾且不重叠的最长子字符串。例如，sameEnds("abXab") 是 "ab"。 sameEnds("ab
JavaScript 挑战——Rails 按钮迭代
在我的 welcome#index 页面上，有一个按钮可以远程(或者我应该说异步)为 Article 编写新的 Comment )，使用 AJAX。它工作得很好，只是当使用rails迭代一篇文章时，
javascript - Codewar 挑战 JavaScript
希望每个人都有美好的一天。这是我在 Stackoverflow 上发表的第一篇文章! 我刚刚完成了 Codeacademy 上的 javascript 类(class)，并且也阅读了几本相关书籍。现
java - 递归 - Kata 挑战
挑战是删除数字末尾的零。两个数字内的零是可以的。例如: 14000 == 14 //all end zeros removed 10300 == 103 // all end zeros remove

首页

博学

6Ren·AI

商城

python - 高基数数据的挑战