gpt4 book ai didi

machine-learning - 无监督学习中的集成学习

转载 作者:行者123 更新时间:2023-11-30 09:09:42 27 4
gpt4 key购买 nike

我对集成学习(更具体地说是无监督学习)的当前文献有疑问。

根据我在文献中读到的内容,集成学习在应用于无监督学习时基本上恢复到聚类问题。但是,如果我有x个输出分数的无监督方法(类似于回归问题),是否有一种方法可以将这些结果合并为一个结果?

最佳答案

On evaluation of outlier rankings and outlier scores.
Schubert, E., Wojdanowski, R., Zimek, A., & Kriegel, H. P. (2012, April).
In Proceedings of the 2012 SIAM International Conference on Data Mining (pp. 1047-1058). Society for Industrial and Applied Mathematics.

在本出版物中,我们不仅“标准化”异常值分数,而且还提出了一种无监督集成成员选择策略,称为“贪婪集成”。

但是,标准化至关重要,而且很困难。我们发布了分数标准化方面的一些早期进展:

Interpreting and unifying outlier scores.
Kriegel, H. P., Kroger, P., Schubert, E., & Zimek, A. (2011, April).
In Proceedings of the 2011 SIAM International Conference on Data Mining (pp. 13-24). Society for Industrial and Applied Mathematics.

如果您没有标准化您的分数(并且最小-最大缩放不够),您通常无法以有意义的方式将它们组合起来,除非有非常强的先决条件。即使两个不同的子空间通常也会产生无法比较的值,因为它们具有不同的特征数量和不同的特征尺度。

还有一些关于半监督集成的工作,例如

Learning Outlier Ensembles: The Best of Both Worlds—Supervised and Unsupervised.
Micenková, B., McWilliams, B., & Assent, I. (2014).
In Proceedings of the ACM SIGKDD 2014 Workshop on Outlier Detection and Description under Data Diversity (ODD2). New York, NY, USA (pp. 51-54).

还要注意过度拟合。通过调整参数和重复评估,很容易得到一个好的结果。但这会将评估信息泄漏到您的实验中,即您往往会过度拟合。在大范围的参数和数据集上表现良好非常。以下研究的主要观察结果之一是,对于每种算法,您都会发现至少一个数据集和参数集,它“优于”其他算法;但如果你稍微改变参数,或者使用不同的数据集,“高级”新方法的好处就无法重现。

On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study.
Campos, G. O., Zimek, A., Sander, J., Campello, R. J., Micenková, B., Schubert, E., ... & Houle, M. E. (2016).
Data Mining and Knowledge Discovery, 30(4), 891-927.

因此,您必须非常努力才能做出可靠的评估。请注意如何选择参数。

关于machine-learning - 无监督学习中的集成学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42894727/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com