gpt4 book ai didi

java - 大规模机器学习

转载 作者:IT老高 更新时间:2023-10-28 12:53:31 30 4
gpt4 key购买 nike

我需要在大型数据集(10-1000 亿条记录)上运行各种机器学习技术问题主要围绕文本挖掘/信息提取,包括各种内核技术,但不限于这些技术(我们使用了一些贝叶斯方法、自举、梯度提升、回归树——许多不同的问题和解决方法)

最好的实现是什么?我在 ML 方面经验丰富,但没有太多经验如何处理大型数据集是否有任何使用 MapReduce 基础设施的可扩展和可定制的机器学习库强烈偏爱c++,但是Java和python都可以Amazon Azure 还是自己的数据中心(我们负担得起)?

最佳答案

除非您尝试学习的分类状态空间非常大,否则我预计在包含 10-1000 亿条记录或训练样本的以文本挖掘为重点的数据集中存在大量冗余。作为一个粗略的猜测,我怀疑人们需要的不仅仅是 1-2% 的随机样本子集来学习在交叉验证测试中能够很好地支持的可靠分类器。

通过快速文献搜索,我们找到了以下相关论文。 Tsang 论文声称 n 个训练样本的时间复杂度为 O(n),并且有与之相关的软件可用作 LibCVM toolkit . Wolfe 论文描述了一种基于 MapReduce 的分布式 EM 方法。

最后,有一个 Large-Scale Machine Learning workshop在 NIPS 2009 session 上,看起来有很多有趣且相关的演讲。

引用文献

Ivor W. Tsang、James T. Kwok、Pak-Ming Cheung (2005)。 “Core Vector Machines: Fast SVM Training on Very Large Data Sets”,机器学习研究杂志,第 6 卷,第 363-392 页。

J Wolfe、A Haghighi、D Klein (2008)。 “Fully Distributed EM for Very Large Datasets”,第 25 届机器学习国际 session 论文集,第 1184-1191 页。

Olivier Camp、Joaquim B. L. Filipe、Slimane Hammoudi 和 Mario Piattini(2005 年)。 “Mining Very Large Datasets with Support Vector Machine Algorithms ”,企业信息系统 V,Springer 荷兰,第 177-184 页。

关于java - 大规模机器学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3208927/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com