gpt4 book ai didi

machine-learning - 演进环境中在线集群的流规范化

转载 作者:行者123 更新时间:2023-12-04 10:20:54 24 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

12 个月前关闭。




Improve this question




TL;DR:考虑到整个数据集不可用并且您正在处理不断发展的环境的集群,如何规范化流数据

你好!我正在学习 非平稳数据流的动态聚类 .我需要规范化数据 因为所有特征在最终聚类中应该具有相同的影响,但是我 不知道怎么做 .....

我需要申请 标准归一化 .我最初的方法是:

  • 填写 缓冲区 初始 数据积分
  • 使用这些数据点到 获取均值和标准差
  • 使用这些度量来标准化当前数据点
  • 将那些归一化到算法的点发送 一一
  • 使用前面的措施来将传入数据点标准化一段时间
  • 每隔一段时间 再次计算均值和标准差
  • 用新度量表示当前的微簇质心 (拥有较旧的,返回并再次正常化应该不是问题)
  • 使用新措施将传入数据点标准化一段时间
  • 等等....

  • 问题是 归一化数据不应涉及聚类算法的作用 ... 我的意思是, 您无法告诉聚类算法“好吧,您现在拥有的微集群需要使用此新均值和标准差进行归一化” ... 我的意思是, I developed an algorithm我可以做到这一点,但我也在使用现有的算法 (clustream and denstream)我觉得修改它们以便能够做到这一点是不对的......

    有任何想法吗?

    TIA

    最佳答案

    随着更多数据流的流入,估计的标准化参数(例如均值和标准差)会更新并进一步收敛到真实值 [1] , 2 , 3] .在不断发展的环境中,由于数据分布现在也随时间变化 [ 4 ]。因此,使用较近的估计标准化参数标准化的较近的流式样本更准确和具有代表性。

    一种解决方案是通过在聚类算法的更新规则中嵌入新的衰减参数来将现在与过去的部分反射(reflect)合并。它提高了使用更新的分布估计标准化的更新样本的贡献。您可以在 Apache Sparks MLib [5] 中看到这个想法的实现。 , 6 , 7 ]:

    enter image description here

    其中 α 是新的衰减参数;较低的 α 使算法更偏爱最近的样本。

    关于machine-learning - 演进环境中在线集群的流规范化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60860178/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com