python - 如何将某些条目的列数不同的自定义数据集表示并加载到 sci-kit 学习中-6ren

python - 如何将某些条目的列数不同的自定义数据集表示并加载到 sci-kit 学习中

转载作者：太空宇宙更新时间：2023-11-03 12:03:08

24

4

我正在从事击键生物识别认证项目。它就像是传统的基于密码的身份验证的包装器。如果密码正确，它会检查“打字节奏”，如果与用户的配置文件匹配，则给出肯定的输出。否则，给出负输出。通过映射一些在键入密码时提取的计时属性来检查“键入节奏”。基本上有 5 个特征，即 PP(按下-按下时间)、PR(按下-释放时间)、RP(释放-按下时间)、RR(释放-释放时间)和总时间。 PP 是按下两个连续键(字符)之间的时间。 RR 是释放两个连续键之间的时间。 PR 是按下和释放键的时间。 RP 是释放一个键然后按下一个键之间的时间。总时间是从按下密码的第一个键到释放密码的最后一个键之间的时间。

我正在使用一个开放的数据库 GREYC-Web based KeyStroke dynamics为项目。每个数据收集 session 包含按下的键的 ASCII 值和 PP、PR、RP、RR 和总时间的时间戳。它还包含实际用户是否正在输入密码或冒名顶替者。在收集数据时，允许用户使用自己的密码。所以很自然地，有不同长度的密码。除此之外，用户可能会按下额外的键(如 Shift、Caps、Backspace、Delete 等)。即使对于特定用户，不同的密码输入 session 也可能具有不同的密码长度。请注意，此上下文中的密码长度是用户键入的键(字符)的总数。例如，如果用户的实际密码是“abcd”。在一个 session 中，他正确地键入了密码，密码长度为 4。在另一个 session 中，他键入了以下一组键 - a、l、BACKSPACE、b、c、d-，因此密码长度为 6。

这里是所提议系统的一些上下文。建议的系统框图如下。 “输入特征空间分区”创建实际数据库的子集，以提供给不同的分类器，即高斯、K-NN 和 OCSVM。这些分类器的输出被馈送到反向传播神经网络 (BPNN)，其结果是最终输出。 BPNN 用于惩罚那些给出错误结果的分类器并奖励那些给出正确结果的分类器。

我的问题是如何以结构化格式表示这种不同长度的数据，以便它可以在 sci-kit 学习中进行处理和使用。

我研究了 panda 和 numpy 的数据预处理。但我的问题在预处理阶段之前。

提前致谢!

最佳答案

一个选项是 Recurrent Neural Network .这些网络有效地融入了自身，有效地创造了时间的功能，或者在你的情况下，在一个词中的相对位置。这些网络的结构如下:

左侧部分(箭头前)显示了 RNN 的理论结构。值不仅在网络中的节点之间传递，而且在时间步长之间传递。这种通用结构允许嵌入任意时间，或者在您的情况下，任意字长。

能够在某些问题上取得更好结果的 RNN 的常见实现是 LSTM 或长短期内存网络。

为避免过于复杂的介绍性答案，我不会对这些进行过多的详细介绍。基本上，它们具有更复杂的“隐藏单元”，这有助于更复杂地决定保留哪些数据以及“遗忘”什么数据。

如果您想自己实现这些，请查看 Tensorflow。如果您有一个更适合您的库，请随时研究它对 RNN 和 LSTM 的实现，但如果没有，Tensorflow 是一个很好的起点。

祝您研究顺利，希望对您有所帮助!

关于python - 如何将某些条目的列数不同的自定义数据集表示并加载到 sci-kit 学习中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41535889/

24

4

0

文章推荐： android - 使用电话号码和密码的 Firebase Auth

文章推荐： c# - 如何读取固定宽度的XML文档？

文章推荐： android - 如何在 Android 中访问工具栏内的按钮

python - sci-kit学习库中的算法参数是如何优化的？
当从数学角度看待机器学习时，我们有成本函数，以减少下次预测的误差，并且我们不断优化特定算法中使用的方程的参数。我想知道这个优化发生在库的哪里 Sci-kit learn 。没有任何函数可以完成这项工
python - Sci-Kit 机器学习程序的结果代表什么？
我正在观看 Google 的机器学习视频，并完成了一个利用数据库存储有关花卉信息的程序。程序成功运行，但我很难理解结果: from scipy.spatial import distance def
Python:sci-kit 中的特征选择学习正态分布
我有一个 pandas DataFrame，其索引是唯一的用户标识符、对应于唯一事件的列以及值 1(参加)、0(未参加)或 NaN(未被邀请/不相关)。对于 NaN，矩阵非常稀疏:有数百个事件，大多数
python - 标签编码 Sci-kit 库期间出错
我正在尝试对表单字符串中的数据帧进行编码，但收到此错误: error : '<' not supported between instances of 'str' and 'NoneType'",'o
python - 如何优化大型数据集的标签编码(sci-kit learn)
我正在使用 sci-kit learn 的标签编码类将字符串列表列表编码为整数代码。即 [[a,b,c],[b,c,d],[c,f,z]...,[a,v,z]]] LabelEncoder 已实例化并
java - AP Comp Sci 打印方法
public void changeParams(int k, int[] A, String s){ k++; A[0]++; s += "X"; } public void
python - 如何将某些条目的列数不同的自定义数据集表示并加载到 sci-kit 学习中
我正在从事击键生物识别认证项目。它就像是传统的基于密码的身份验证的包装器。如果密码正确，它会检查“打字节奏”，如果与用户的配置文件匹配，则给出肯定的输出。否则，给出负输出。通过映射一些在键入密码时提取
python - 使用准备好的数据进行 Sci-kit 分类
我正在尝试使用 Sci-kit learn python 库对一堆 url 进行分类，以确定是否存在与用户配置文件匹配的某些关键字。用户有姓名、电子邮件地址……以及分配给他们的 url。我创建了一个
python - 使用 Sci-Kit 学习对大型语料库的文本进行分类
我的数据库中有大约 1600 篇文章，每篇文章都已预先标记为以下类别之一: Technology Science Business World Health Entertainment Sports
x86 - 各种中断的区别 : SCI, SMI、NMI、普通中断
我正在学习英特尔架构。到目前为止，我遇到了几种类型的中断: SCI:系统控制中断，硬件用来通知操作系统 ACPI 事件的系统中断。 SCI 是一个事件的、低的、可共享的电平中断。 SMI:系统管理中断
scikit-learn - 在没有图集的情况下安装 sci-kit learn
我正在尝试安装 scikit-learn，这样它就无法访问 ATLAS(其他 BLAS 和 LAPACK 库可以)。有没有办法设置安装以便不使用 ATLAS？很抱歉这个基本问题，但我看不出有什么好的方
python - sci-kit learn GridSearchCV 的一致答案
如何在 sci-kit learn 中使用 GridSearchCV 获得一致的答案？我假设我得到了不同的答案，因为不同的随机数导致每次运行时的折叠都不同，尽管我的理解是下面的代码应该将这个问题解决为
python - 使用 sci-kit 中的训练/测试数据而不是交叉验证来学习曲线
我有一个单独的训练和测试数据(来自加载到不同 pandas 数据帧的不同 CSV)，我想使用此训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成的训练和测试数据(这似乎是learning_
c++ - C++ 应用程序 (Sci)Python 之间的数据交换
我正在为科学目的开发一个 c++/Qt 软件。虽然 Eigen 库为我提供了许多分析矩阵的操作，但为所有可能的操作串联设计一个图形用户界面仍然是痛苦/困难的。因此，我还在运行时与 Matlab 交换矩
python - KerasClassifier - Sci-Kit 学习管道 [属性错误]
我在最后使用带有 KerasClassfier 的 Sci-kit 学习管道。分类器将加载经过训练的模型进行预测。但是在将分类器添加到管道后(总共 3 个组件)，我在调用 pipeline.predi
python - PLS 结果随 sci-kit 版本的变化而变化
我使用 sci-kit/python 将数据与 PLS 模型进行了拟合。我注意到 Python 3.7/Sci-kit 0.20.1 的结果大约是 Python 2.7/Sci-kit 0.17 的结
python - 是否有用于分箱数据的 sci.stats.moment 函数？
我正在寻找一个计算第n个中心矩的函数(与 scipy.stats.moment 中的相同)对于我的分箱数据(在 numpy.histogram 函数之外)。 # Generate normal dis
java - COMP SCI 101 - 使用 Printf 将字段居中
我正在使用 printf 函数创建摄氏度到华氏度的转换表。在我的笔记中，我发现我应该能够在 printf 的 % 之后使用 ^ 标志将输出居中。但是，当我运行该程序时，Netbeans 总是给我一条
python - 使用 Sci-kit Learn SVM 时预测始终相同
我有一个数据集，我试图从 DNA 构成中预测数据条目属于哪种 DNA。例如，字符串 ATTAG...ACGAT 可能会转换为 EI。可能的输出为 EI、IE 或 N。可以进一步研究该数据集 here
python - sci-kit learn 中 SVC 概率输出的网格搜索交叉验证
我想对 SVC 分类器的概率输出运行网格搜索交叉验证。我特别想最小化负对数可能性。从文档来看， GridSearchCV 似乎调用了它所传递的估计器的 predict() 方法以及的 predict

首页

博学

6Ren·AI

商城

python - 如何将某些条目的列数不同的自定义数据集表示并加载到 sci-kit 学习中