gpt4 book ai didi

R 中用于超大型数据集处理和机器学习的推荐包

转载 作者:行者123 更新时间:2023-11-30 08:20:12 24 4
gpt4 key购买 nike

看起来 R 确实是为处理可以完全拉入内存的数据集而设计的。建议使用哪些 R 包来对无法拉入内存的超大型数据集进行信号处理和机器学习?

如果 R 完全是错误的方法,我愿意接受其他强大的免费建议(例如 scipy,如果有一些很好的方法来处理非常大的数据集)

最佳答案

查看 high performance computing task view 的“大内存和内存不足数据”小节在克兰上。 bigmemoryff是两个流行的软件包。对于 bigmemory (以及相关的 biganalyticsbigtabulate ), bigmemory website Jay Emerson 提供了一些非常好的演示、小插曲和概述。对于 ff,我建议阅读 Adler Oehlschlägel 和同事关于 ff website 的精彩幻灯片演示。 。

此外,请考虑将数据存储在数据库中并以较小的批量读取进行分析。可能有多种方法可供考虑。首先,请仔细查看 biglm 中的一些示例。包,以及 this presentation来自托马斯·拉姆利。

并调查高性能计算任务 View 上的其他包以及其他答案中提到的。我上面提到的软件包只是我碰巧有更多经验的软件包。

关于R 中用于超大型数据集处理和机器学习的推荐包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11055502/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com