gpt4 book ai didi

matlab - 如何在 MATLAB 中生成 'clusterable' 数据集

转载 作者:太空宇宙 更新时间:2023-11-03 20:30:25 26 4
gpt4 key购买 nike

我需要测试我的差距统计算法(它应该告诉我数据集的最佳 k),为了这样做,我需要生成一个易于聚类的大数据集,以便我先验地知道最佳聚类数.你知道有什么快速的方法吗?

最佳答案

这在很大程度上取决于您期望什么样的数据集——1D、2D、3D、正态分布、稀疏等? “大”有多大?数千、数百万、数十亿次观察?

无论如何,我创建易于识别的集群的一般方法是连接具有不同偏移量和分布的随机数的顺序向量:

DataSet = [5*randn(1000,1);20+3*randn(1,1000);120+25*randn(1,1000)];
Groups = [1*ones(1000,1);2*ones(1000,1);3*ones(1000,1)];

这可以通过使用例如扩展到 N 个特征。

randn(1000,5)

或水平连接

DataSet1 = [5*randn(1000,1);20+3*randn(1,1000);120+25*randn(1,1000)];
DataSet2 = [-100+7*randn(1000,1);1+0.1*randn(1,1000);20+3*randn(1,1000)];
DataSet = [DataSet1 DataSet2];

等等。

randn 也接受多维输入,例如

randn(1000,10,3);

用于查看更高维度的集群。

如果您没有关于这将应用于哪种数据集的详细信息,您应该查找这些。

关于matlab - 如何在 MATLAB 中生成 'clusterable' 数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17049081/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com