gpt4 book ai didi

algorithm - 机器学习样本的聚类算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:18:39 25 4
gpt4 key购买 nike

我有一个 1830*6800 的矩阵,如下所示:

enter image description here

第 1830 行是不同的创业公司 ID,列是 6800 个不同的投资者。现在我想找出那些成功筹集到足够资金的公司与那些没有那么幸运获得足够资金的公司之间的相似之处。

我正在考虑使用 k 均值聚类和谱聚类,将聚类数设置为 2 以具有 2 个不同的组(即成功和失败)。但是 k-means 几乎全是 0,这意味着所有行都在同一个簇中。

任何人都可以给我一些想法,如何为这种情况选择更合适的算法?它不一定是集群。

最佳答案

随机投影在这里可能弊大于利。而是删除例如所有投资了一家公司的投资者,所有没有投资者离开的公司,重复。

但总而言之,我会说你在这里有一个无望的任务。

集群对您没有帮助。您无法获得成功或失败的集群。您更有可能获得东海岸或西海岸集群;或不同的领域。 如果您的目标是成功/失败,则聚类是错误的工具

此外,您的数据充满异常,k-means 无法很好地处理它们。这可能就是为什么几乎所有东西都在同一个集群中的原因。

您可以尝试的最佳方法是频繁项集,它将(取决于您如何应用它)识别投资于相同公司的投资者群体,以及倾向于拥有相同投资者的公司群体。

关于algorithm - 机器学习样本的聚类算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37030581/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com