gpt4 book ai didi

python - 如何对具有 nans 的时间序列数据使用 k-means?

转载 作者:太空狗 更新时间:2023-10-30 01:34:30 24 4
gpt4 key购买 nike

我有一些时间序列记录有时会重叠,并且不一定具有相同的开始和结束日期。每行代表一个不同的时间序列。我把它们都做成了相同的长度,以保持数据收集的实际时间。

例如,在 t(1,2,3,4,5,6) 时:

Station 1: nan, nan, 2, 4, 5, 10

Station 2: nan, 1, 4, nan, 10, 8

Station 3: 1, 9, 4, 7, nan, nan

我正在尝试在 Python 中运行聚类分析以将具有相似行为的站分组,其中行为的时间很重要,所以我不能只是摆脱 nans。 (据我所知)。

有什么想法吗?

最佳答案

K-means 不是处理这类数据的最佳算法。

K-means 旨在最小化簇内方差(= 平方和,WCSS)。

但是您如何使用 NaN 计算方差?方差在这里有多大意义?

相反,您可能想使用

  • 为时间序列设计的相似性度量,例如 DTW、阈值交叉距离等。
  • 基于距离的聚类算法。如果您只有几个系列,层次聚类应该没问题。

关于python - 如何对具有 nans 的时间序列数据使用 k-means?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18626709/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com