Python K 表示聚类-6ren

Python K 表示聚类

转载作者：太空宇宙更新时间：2023-11-04 05:32:18

我正在尝试在这个网站上实现代码来估计我应该为我的 K 均值聚类使用什么 K 值。

https://datasciencelab.wordpress.com/2014/01/21/selection-of-k-in-k-means-clustering-reloaded/

但是我没有取得任何成功 - 特别是我试图获得 f(k) 与簇数 k 的关系图，我可以使用它来获得要使用的 k 的理想值。

我的数据格式如下:

每个坐标都有 5 个维度/变量，即它们是存在于五维空间中的数据点。坐标列表如下，例如第一个数据点的坐标 ( 35.38361202590826,-24.022420305129415, 0.9608968122051765, -11.700331772145386, -9.4393980963685)。

Variable1 = [35.38361202590826, 3.0, 10.0, 10.04987562112089, 5.385164807134505, 24.35159132377184, 10.77032961426901, 10.816653826391967, 18.384776310850235, 14.317821063276353, 24.18677324489565, 3.0, 24.33105012119288, 8.94427190999916, 2.82842712474619, 4.123105625617661, 4.47213595499958, 13.453624047073712, 12.529964086141668, 19.4164878389476, 5.385164807134505, 5.0, 24.041630560342618, 30.083217912982647, 15.132745950421555, 1.414213562373095, 21.470910553583888, 12.649110640673516, 9.0, 9.055385138137416, 16.124515496597102, 18.027756377319946, 7.615773105863908, 4.47213595499958, 5.0, 16.124515496597102, 8.246211251235321, 3.0, 23.02172886644268, 2.23606797749979, 10.0, 13.416407864998737, 14.7648230602334, 12.649110640673516, 2.82842712474619, 9.899494936611665, 12.806248474865697, 13.0, 10.19803902718557, 10.440306508910549]
Variable2 = [-24.022420305129415, -40.0, -21.0, -36.020346285601605, -14.298541039632994, -10.225204451297113, -7.242118188905023, -10.816653826391967, -16.263455967290593, -0.9079593845004517, -5.70559779110359, -1.0, -17.426292654367874, -0.4472135954999579, -12.727922061357855, -38.32062875574061, -15.205262246998569, -13.89960053482201, -6.943355894868313, -18.43793805396085, -14.298541039632994, -8.0, -9.899494936611665, -10.537436550735357, -9.251460406371256, -1.414213562373095, -0.23287321641631115, -4.743416490252569, -10.0, -25.951408627588936, -5.457528321925173, -11.648704120729812, -15.231546211727816, -9.838699100999074, -2.2, 4.713319914389921, -3.395498750508662, -32.0, -16.59301967354925, -4.47213595499958, -3.4, -13.416407864998737, 4.944183868793753, -3.478505426185217, -21.213203435596423, -18.384776310850235, -6.871645523098667, -21.0, -5.491251783869154, -8.620436566990362]
Variable3 = [0.9608968122051765, 22.0, 21.0, 18.507691737905798, 15.412713068695306, -8.08982038917884, -0.7427813527082074, -7.211102550927978, -14.849242404917499, -0.4190581774617469, -10.170848236315095, -7.0, 1.150792911137501, -5.366563145999495, -12.727922061357855, 4.85071250072666, 9.838699100999074, -8.473553267217696, 6.065460321953928, -10.249021432229634, 4.642383454426297, -9.0, 9.899494936611665, 4.354587344310195, -8.854969246098202, -8.48528137423857, -10.292996165600954, -11.067971810589327, -30.0, -10.932721081409808, -14.6360986815266, -22.188007849009164, 0.0, -7.155417527999327, -5.4, -12.279438724331637, 19.40285000290664, -7.0, 18.938629784469825, 8.94427190999916, 3.8, -8.94427190999916, -43.549455173073746, -8.538149682454623, -11.31370849898476, 1.4142135623730951, -10.619815808425212, 12.0, 7.060180864974626, -7.854175538813441]
Variable4 = [-11.700331772145386, -8.0, -5.0, -2.9851115706299676, -10.398938937914904, -8.459406092237773, -7.242118188905023, -10.539303728279352, -21.920310216782973, -8.03194840135015, -10.791021909261136, -10.0, -9.69954025101608, -2.6832815729997477, -23.33452377915607, -7.761140001162655, -17.44133022449836, -4.980070779856015, -2.7134954071899156, -6.48933015307002, -12.441587657862476, -5.2, -18.384776310850235, -10.603918800266811, -14.604091070057484, -4.949747468305833, -1.3506646552146047, -7.905694150420948, -14.0, -29.706080514133717, -2.4806946917841692, -23.574758339572238, -3.2826608214930637, -5.813776741499453, -13.4, -4.9613893835683385, -11.884245626780316, -19.0, -5.473090258814675, -2.23606797749979, -2.0, -2.6832815729997477, -6.163297699455227, -12.01665510863984, -12.727922061357855, -12.020815280171307, -8.589556903873333, -18.53846153846154, -5.491251783869154, -4.789131426105757]
Variable5 = [-9.4393980963685, -4.0, -2.0, -0.29851115706299675, -9.84185292338375, 6.118696639531204, -6.127946159842712, -2.218800784900916, 10.606601717798213, 0.6984302957695782, 0.7442084075352507, -0.0, 3.452378733412503, 1.3416407864998738, -6.363961030678928, 6.305926250944657, -5.813776741499453, -0.4459764877482998, -0.7980868844676221, 7.673890419106611, -1.4855627054164149, 1.4, -2.8284271247461903, -2.925218979383948, 3.9649116027305387, 0.7071067811865475, 0.4191717895493601, 1.5811388300841895, -4.0, 4.748555621218401, 4.341215710622296, 4.714951667914447, -5.120950881529179, 4.919349550499537, 6.2, 0.6201736729460423, -6.305926250944657, -9.0, -6.168085847235585, 0.0, -1.0, 1.3416407864998738, 3.3186987612451224, 4.427188724235731, 4.242640687119285, 4.949747468305833, 5.9346029517670305, 2.3076923076923075, -3.1378581622109447, 1.436739427831727]

我可以使用 scikit-learn 创建具有这些坐标的集群，但是我有兴趣找到要使用的最佳 k 值 - 但是 scikit-learn 没有我可以用这个来估计 K 的最佳值的功能技术(或据我所知的任何技术)。

最佳答案

你可以试试 code在 Monte Shaffer 的最后评论中。这是一个简化版本:

import numpy as np
import random
from numpy import zeros

class KMeansFK():
    def __init__(self, K, X):
        self.K = K
        self.X = X
        self.N = len(X)
        self.mu = None
        self.clusters = None
        self.method = None

    def _cluster_points(self):
        mu = self.mu
        clusters  = {}
        for x in self.X:
            bestmukey = min([(i[0], np.linalg.norm(x-mu[i[0]])) \
                             for i in enumerate(mu)], key=lambda t:t[1])[0]
            try:
                clusters[bestmukey].append(x)
            except KeyError:
                clusters[bestmukey] = [x]
        self.clusters = clusters

    def _reevaluate_centers(self):
        clusters = self.clusters
        newmu = []
        keys = sorted(self.clusters.keys())
        for k in keys:
            newmu.append(np.mean(clusters[k], axis = 0))
        self.mu = newmu

    def _has_converged(self):
        K = len(self.oldmu)
        return(set([tuple(a) for a in self.mu]) == \
               set([tuple(a) for a in self.oldmu])\
               and len(set([tuple(a) for a in self.mu])) == K)

    def find_centers(self, K, method='random'):
        self.method = method
        X = self.X
        K = self.K
        # https://stackoverflow.com/questions/44372231/population-must-be-a-sequence-or-set-for-dicts-use-listd
        self.oldmu = random.sample(list(X), K)
        if method != '++':
            # Initialize to K random centers
            self.mu = random.sample(list(X), K)
        while not self._has_converged():
            self.oldmu = self.mu
            # Assign all points in X to clusters
            self._cluster_points()
            # Reevaluate centers
            self._reevaluate_centers()

    def _dist_from_centers(self):
        cent = self.mu
        X = self.X
        D2 = np.array([min([np.linalg.norm(x-c)**2 for c in cent]) for x in X])
        self.D2 = D2

    def _choose_next_center(self):
        self.probs = self.D2/self.D2.sum()
        self.cumprobs = self.probs.cumsum()
        r = random.random()
        ind = np.where(self.cumprobs >= r)[0][0]
        return(self.X[ind])

    def init_centers(self,K):
        self.K = K
        #self.mu = random.sample(self.X, 1)
        self.mu = random.sample(list(self.X), 1)
        while len(self.mu) < self.K:
            self._dist_from_centers()
            self.mu.append(self._choose_next_center())

    def get_ak(self,k, Nd):
        if k == 2:
            return( 1 - 3.0 / (4.0 * Nd ) )
        else:
            previous_a = self.get_ak(k-1, Nd)
            return ( previous_a + (1.0-previous_a)/6.0 )

    def fK(self, thisk, Skm1=0):
        X = self.X
        Nd = len(X[0])

        self.find_centers(thisk, method='++')
        mu, clusters = self.mu, self.clusters
        Sk = sum([np.linalg.norm(mu[i]-c)**2 \
                 for i in range(thisk) for c in clusters[i]])
        if thisk == 1:
            fs = 1
        elif Skm1 == 0:
            fs = 1
        else:
            fs = Sk/(self.get_ak(thisk,Nd)*Skm1)
        return fs, Sk

    def run(self, maxk):
        ks = range(1,maxk)
        fs = zeros(len(ks))
        Wks,Wkbs,sks = zeros(len(ks)+1),zeros(len(ks)+1),zeros(len(ks)+1)
        # Special case K=1
        self.init_centers(1)
        fs[0], Sk = self.fK(1)
        # Rest of Ks
        for k in ks[1:]:
            self.init_centers(k)
            fs[k-1], Sk = self.fK(k, Skm1=Sk)
        self.fs = fs

然后在您的数据上运行它:

X = np.array([Variable1, Variable2, Variable3, Variable4, Variable5])
km = kmeans.KMeansFK(2, X)
km.run(5)

现在 km.clusters 有了结果。

关于Python K 表示聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36729826/

文章推荐： python - tensorflow 跟踪不起作用

文章推荐： php - 匹配表格中 2 个不同列中的文本？

文章推荐： css - 我可以使用 CSS :visited pseudo class on 'wildcard' links?

文章推荐： python - 如何使用 python 在 sqlite3 中存储时区感知时间戳？

c++ - 数字 xor K - K = 数字 + K xor K，为什么？
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
algorithm - O(K + (N-K)logK) 是否等同于 O(K + N log K)？
我们可以说 O(K + (N-K)logK)相当于O(K + N logK)对于 1 < = K <= N ？最佳答案简短的回答是它们不等价，这取决于k 的值。如果k等于N，那么第一个复杂度是O(
algorithm - 合并 K 个排序链表，为什么复杂度是 O(N * K * K)，而不是 O(N * K)
我有以下解决方案，但我从其他评论者那里听说它是 O(N * K * K)，而不是 O(N * K)其中 N 是 K 列表的(最大)长度，K 是列表的数量。例如，给定列表 [1, 2, 3] 和 [4,
C++ 语法，i % k == l % k == 0 和 i % k == 0 && l % k == 0 之间的区别
我试图理解这些语法结构之间的语义差异。 if ((i% k) == (l % k) == 0) 和 if ((i % k) == 0 && (l % k) == 0) 最佳答案您的特定表达式((i
python - 将数组 (k,) 或 (k, n) 乘以一维数组 (k,)
我有时会使用一维数组: A = np.array([1, 2, 3, 4]) 或 2D 阵列(使用 scipy.io.wavfile 读取单声道或立体声信号): A = np.array([[1, 2
python - 用于确定 k 均值中的 k 的 k 折交叉验证？
在文档聚类过程中，作为数据预处理步骤，我首先应用奇异向量分解得到U、S和Vt 然后通过选择适当数量的特征值，我截断了 Vt，这让我从阅读的内容中得到了很好的文档-文档相关性 here .现在我正在对矩
c++ - Top K 最小选择算法 - O (n + k log n) vs O (n log k) for k << N
我问的是关于 Top K 算法的问题。我认为 O(n + k log n) 应该更快，因为……例如，如果您尝试插入 k = 300 和 n = 100000000，我们可以看到 O(n + k log
r - 列出 k 个数字的所有排列，取自 0 :k,，总和为 k
这个问题与另一个问题R:sample()密切相关。。我想在 R 中找到一种方法来列出 k 个数字的所有排列，总和为 k，其中每个数字都是从 0:k 中选择的。如果k=7，我可以从0,1,...,7中
machine-learning - 了解 Precision@K、AP@K、MAP@K
我目前正在评估基于隐式反馈的推荐系统。我对排名任务的评估指标有点困惑。具体来说，我希望通过精确度和召回率来进行评估。 Precision@k has the advantage of not requ
python - 生成所有可能的 n 维 k*k*...*k 数组，每个数组都有沿轴的行
我在 Python 中工作，需要找到一种算法来生成所有可能的 n 维 k,k,...,k 数组，每个数组都沿轴有一行 1。因此，该函数接受两个数字 - n 和 k，并且应该返回一个数组列表，其中包含沿
algorithm - 寻找最大数量 k 使得对于 k 对的所有组合，我们在每个组合中有 k 个不同的元素
我们有 N 对。每对包含两个数字。我们必须找到最大数 K，这样如果我们从给定的 N 对中取 J (1 2，如果我们选择三对 (1,2)，我们只有两个不同的数字，即 1 和 2。从一个开始检查每个可能
algorithm - 在 O(K*log(K)) 中打印给定堆中最大的 K 个元素？
鉴于以下问题，我不能完全确定我当前的解决方案: 问题: 给定一个包含 n 元素的最大堆，它存储在数组 A 中，是否可以打印所有最大的 K 元素在 O(K*log(K)) 中？我的回答: 是的，是的，
scala - Apache Spark - Scala - 如何将 FlatMap (k, {v1,v2,v3,...}) 到 ((k,v1),(k,v2),(k,v3),...)
我明白了: val vector: RDD[(String, Array[String])] = [("a", {v1,v2,..}),("b", {u1,u2,..})] 想转换成: RDD[(St
algorithm - 将 X 中的所有 x_i 分成 K 组 s.t. var(sum(x in k) for k in K) 被最小化
我有 X 个正数，索引为 x_i。每个 x_i 需要进入 K 组之一(其中 K 是预先确定的)。令 S_j 为 K_j 中所有 x_i 的总和。我需要分配所有 x_i 以使所有 S_j 的方差最小化。
c - 为什么对于长度为 k 的字符串需要 char[k + 1] 而不是 char[k] ？
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
algorithm - 为什么 k*k <= n 优于 k <= Math.sqrt(n)
我正在研究寻找原始数的算法，看到下面的语句，我不明白为什么。 while (k*k <= n) 优于 while (k <= Math.sqrt(n)) 是因为函数调用吗？该调用函数使用更多资源。更
c - k x k bool 矩阵的快速乘法，其中 8 <= k <= 16
我想找到一种尽可能快的方法来将两个小 bool 矩阵相乘，其中小意味着 8x8、9x9 ... 16x16。这个例程会被大量使用，所以需要非常高效，所以请不要建议直截了当的解决方案应该足够快。对于
java - Guava :Set + Function = Map？
有没有一种惯用的方法来获取 Set和 Function ，并获得 Map实时取景？ (即 Map 由 Set 和 Function 组合支持，例如，如果将元素添加到 Set ，则相应的条目也存在于 M
c - 函数 f1() 正在返回变量 k 的地址，但由于 k 在堆栈上，因此在括号后它应该从堆栈内存中展开变量 k
这个问题在这里已经有了答案: Can a local variable's memory be accessed outside its scope? (20 个答案) returning addr
matlab - 为什么替换矩阵的 NaN 不适用于 k(k==NaN) = SomeNumber ，其中 k 是要操作的矩阵
给定一个矩阵:- k = [1 2 3 ; 4 5 6 ; 7 8 NaN]; 如果我想用 0 替换一个数字，比如 2，我可以使用这个:k(k==2) =

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python K 表示聚类