基于间隔密度的概念漂移检测算法mdm-DDM

转载作者：我是一只小鸟更新时间：2023-09-16 23:02:08

40

4

概念漂移

概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的，其数据分布不会随着时间发生变化。然而对于真实的数据流来说，由于数据流天生的时间性，到达的数据的分布可能会随着时间的推移不断改变。这使得传统的批处理模型不适合对数据流的进行挖掘分析，模型更是需要有检测和适应数据分布变化的能力。例如，在服装店销售预测的例子中，如果季节性因素导致服装销售额在夏季月份较高，那么在冬季该预测模型可能就不管用了 .

如果要对概念漂移下定义的话，它的定义是：概念漂移是一种现象，即目标领域的统计属性随着时间的推移以一种任意的方式变化.

如果用一句话来描述概念漂移的话，它就是：数据分布不均匀，使得过去训练的表现不能保证将来的结果 .

基于间隔密度的概念漂移检测算法mdm-DDM

背景

参考论文： https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C475KOm_zrgu4lQARvep2SAkaWjBDt8_rTOnKA7PWSN5MEdRZ4_Punz3wA-1d-2-our_XnGz-hr7Ar5EH4I5MWNB&uniplatform=NZKPT 。

mdm-DDM解决了基于错误率的漂移检测算法必须及时获取标记数据标签的问题。mdm-DDM利用间隔密度作为检测漂移的度量，然后结合McDiarmid 不等式来进行显著性检验，以此判断是否产生概念漂移.

本文只考虑了没有明确决策边界的mdm-DDM，在有标签情况下，用集成分类器来进行预测.

定义

间隔区域
- 预测空间中最容易分类错误的部分
间隔密度
- 分类器不确定区域中的样本密度，即具有不确定性的数据样本占总体样本的密度

间隔密度计算

对于每一个样本x来说：

\[margin = P_E(y = trueclass|x) - P_E(y \neq trueclass|x) \]

其中E指的是集成分类器。被减数指的是样本经过分类器预测后，集成分类器预测标签为样本标签的概率。减数的是样本经过分类器预测后，集成分类器预测标签不为样本标签的概率.

间隔密度的计算方式：

\[S_{(w,b)} = \begin{cases} 1，if\ margin \leq \theta_{margin\ of\ uncertainty}\\ 0，其他\end{cases} \]

\[MD_{svm} = \frac{\sum{S_{(w,b)}(x)}}{|X|}，\forall x\in X \]

。

其中𝜃是定义阈值，表示间隔区域，默认值为0.15，X 表示样本集，x 是样本集中的样本点，𝑚𝑎𝑟𝑔𝑖𝑛表示样本点距离决策面的距离。当样本点落入间隔区域，该样本点被Sign函数标为1，否则为0。MD表示间隔密度.

基于 McDiarmid 不等式的阈值设计

当集成分类器的间隔密度开始以一种不寻常的方式增加的时候，概念漂移的可能性将会增加。因此随着数据流中的数据一个接一个的被处理，算法将不断更新，两个滑动窗口之间的加权平均值的显著差异意味着概念漂移的产生。

。

其中置信度δ的默认值为0.000001.

ε的计算公式如下:

。

\[\varepsilon_w = \sqrt{\frac{\sum_{i=1}^{n}{v^2_i}}{2}ln\frac{1}{\delta_w}} \]

v的计算公式如下:

\[v_i = \frac{w_i}{\sum_{i=1}^{n}{w_i}} \]

w𝑖表示滑动窗口中数据流实例中第i个数据的权重。由于数据流具有时效性这个特点，算法定义最近到来的数据应具有较高的权重，w𝑖 < w𝑖+1，其中w𝑖表示第 i 个实例的权重。权重的计算方法如下:

\[w_i = 1 + (i-1)*d \]

权重随时间增加的d默认值为0.01.

漂移算法整体流程

最后此篇关于基于间隔密度的概念漂移检测算法mdm-DDM的文章就讲到这里了,如果你想了解更多关于基于间隔密度的概念漂移检测算法mdm-DDM的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

40

4

0

文章推荐：修改经过SpringGateway的Json数据

文章推荐：有UP主B站发布视频，助力会员救园

文章推荐： vue3探索——pinia高阶使用

基于间隔密度的概念漂移检测算法mdm-DDM
概念漂移概念漂移是数据流挖掘领域中一个重要的研究点。传统的机器学习算法在操作时通常假设数据是静态的，其数据分布不会随着时间发生变化。然而对于真实的数据流来说，由于数据流天生的时间性，到达
ios - 将十进制度数转换为十进制度分 (DDM)
我一直在使用以下方法将Decimal Degrees转换为Degrees Minutes Seconds (DMS)，但我还需要将其转换为Degrees Decimals Minutes (DDM)。
java - Activity 管理器 : Can't dispatch DDM chunk
我是 Android 开发新手，在简单的操作上遇到了麻烦 Hello World 应用程序..昨天它在 Android 虚拟设备上与模拟器一起工作1.5 当我一天后运行该应用程序时，它卡在 andro
android - 无法调度 DDM block 52454151 : no handler defined error
此代码无法正常工作。 Button button = (Button)findViewById(R.id.button_start); button.setOnClickListener(ne
database - 如何将数据从 (.ddm .pnt .fdt .bin) 文件转换为 .csv
我将数据存储在 .ddm、.pnt、.fdt 和 .bin 文件中。如何将这些文件格式的数据导出(或提取或转换)到 .csv 中？我认为这是一个 ADABAS 数据库。最佳答案是的。文件扩展
java - 无法打开选定的 VM 调试端口 (8700)。确保您没有另一个 DDM 实例
我已经尝试了所有的技巧来解决这个问题，但它根本不起作用。将 android studio 更新到 3.01 + gradle 后出现的问题。我的笔记本电脑上有较旧的依赖项和 gradle + andr
android - 无法调度 DDM block 46454154 : no handler defined - Eclipse - Android SDK
我在 Windows 7 64 位机器上工作，刚刚下载并安装了 Android SDK，并使用带有 Android 插件的 Eclipse。我刚刚在这里浏览了“Hello Android”指南: H
java - Android 应用程序适用于模拟器但不适用于手机 ("Can' t dispatch DDM chunk XXXX : no handler defined")
我制作了一个非常简单的应用程序来开始尝试 Android 开发。它在模拟器上运行良好，但当我尝试在我的 HTC Hero (v1.5) 上安装它时出现以下错误: Sorry! The applica

首页

博学

6Ren·AI

商城

基于间隔密度的概念漂移检测算法mdm-DDM

概念漂移

基于间隔密度的概念漂移检测算法mdm-DDM

背景

定义

间隔密度计算

基于 McDiarmid 不等式的阈值设计

漂移算法整体流程