gpt4 book ai didi

database - 对非常庞大的数据集进行评分

转载 作者:可可西里 更新时间:2023-11-01 14:33:32 25 4
gpt4 key购买 nike

<分区>

我使用 R/Python 在 1-2% 的样本数据上拟合了一个机器学习分类器,我对准确性度量(精度、召回率和 F_score)非常满意。

现在我想用这个用 R 编码的分类器对一个拥有 7000 万行/实例的巨大数据库进行评分,该数据库驻留在 Hadoop/Hive 环境中。

关于数据集的信息:

7000 万 X 40 个变量(列):大约 18 个变量是分类变量,其余 22 个是数字变量(包括整数)

我该怎么做?有什么建议吗?

我想到的事情是:

a) 将数据以 1 M 的增量从 hadoop 系统中分块到 csv 文件中,并将其提供给 R

b) 某种批处理。

它不是一个实时系统,所以不需要每天都发生,但我仍然希望在大约 2-3 小时内完成评分。

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com