gpt4 book ai didi

python - KDE 在处理大数据时非常慢

转载 作者:行者123 更新时间:2023-12-03 14:29:47 38 4
gpt4 key购买 nike

当我尝试制作一个按密度着色的散点图时,它需要很长时间。

可能是因为数据的长度相当大。

这基本上是我的做法:

xy = np.vstack([np.array(x_values),np.array(y_values)])
z = gaussian_kde(xy)(xy)
plt.scatter(np.array(x_values), np.array(x_values), c=z, s=100, edgecolor='')

作为附加信息,我必须补充一点:
>>len(x_values)
809649

>>len(y_values)
809649

是否有其他选择可以获得相同的结果但速度结果更好?

最佳答案

不,没有好的解决方案。
每个点都应该准备好,画一个圆圈,这个圆圈可能会被其他点隐藏。
我的技巧:(注意这些点可能会稍微改变输出)

  • 获取最小值和最大值,并将图像设置为这样的大小,这样图形就不需要重做。
  • 尽可能多地删除数据:
  • 重复数据
  • 以选定的精度(例如浮点数)进行转换并删除重复数据。您可以使用点的一半大小(或图形的分辨率,如果您想要原始外观)来计算精度。

  • 更少的数据:更快的速度。删除比在图形中绘制一个点(这将被覆盖)要快得多。
  • 通常热图对于庞大的数据集更有趣:它提供了更多的信息。但在你的情况下,我认为你的数据仍然太多。

  • 注: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.gaussian_kde.html#scipy.stats.gaussian_kde还有一个很好的例子(只有 2000 分)。无论如何,这个页面也使用了我的第一点。

    关于python - KDE 在处理大数据时非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28174024/

    38 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com