gpt4 book ai didi

r - 具有异构变量的客户集的聚类

转载 作者:行者123 更新时间:2023-11-30 09:47:35 24 4
gpt4 key购买 nike

我有一组具有不同属性的客户,连续属性、分类属性、二元属性和序数属性。知道我们不能对这些不同类型的属性应用相同的距离度量,我如何对它们进行聚类?预先感谢您

最佳答案

正如已经提到的,daisy 包是一个选项,它可以根据数据类型自动选择最佳距离度量。但我建议采用以下方法并请求专家插话。

而不是自动选择识别并删除一些相关变量,例如(一些示例)
PIL 逊相关性:对于连续变量
卡方检验:用于分类变量分类与数值:单向方差分析测试等。

采用有用变量的子集,考虑对 calcategories 变量进行 One-Hot 编码,并可能将序数转换为连续(或分类和 one-hot 编码)。使用不同的距离度量(如欧几里德、曼哈顿等)进行测试来评估结果。通过这种方式,您可以更清楚地了解整个聚类过程。

关于r - 具有异构变量的客户集的聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50406387/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com