python - 使用python sklearn增量训练随机森林模型-6ren

python - 使用python sklearn增量训练随机森林模型

转载作者：太空狗更新时间：2023-10-30 00:27:28

25

4

我正在使用以下代码保存随机森林模型。我正在使用 cPickle 来保存经过训练的模型。当我看到新数据时，我可以增量训练模型吗？目前，火车集有大约 2 年的数据。有没有办法再训练 2 年并将其(某种程度上)附加到现有的已保存模型中。

rf =  RandomForestRegressor(n_estimators=100)
print ("Trying to fit the Random Forest model --> ")
if os.path.exists('rf.pkl'):
    print ("Trained model already pickled -- >")
    with open('rf.pkl', 'rb') as f:
        rf = cPickle.load(f)
else:
    df_x_train = x_train[col_feature]
    rf.fit(df_x_train,y_train)
    print ("Training for the model done ")
    with open('rf.pkl', 'wb') as f:
        cPickle.dump(rf, f)
df_x_test = x_test[col_feature]
pred = rf.predict(df_x_test)

编辑 1:我没有计算能力来一次用 4 年的数据训练模型。

最佳答案

sklearn User Guide 中讨论了您所说的，使用附加数据增量更新模型。 :

Although not all algorithms can learn incrementally (i.e. without seeing all the instances at once), all estimators implementing the partial_fit API are candidates. Actually, the ability to learn incrementally from a mini-batch of instances (sometimes called “online learning”) is key to out-of-core learning as it guarantees that at any given time there will be only a small amount of instances in the main memory.

它们包括实现 partial_fit() 的分类器和回归器列表，但 RandomForest 不在其中。您还可以确认 RFRegressor 没有实现部分拟合 on the documentation page for RandomForestRegressor .

一些可能的前进方向:

使用实现 partial_fit() 的回归器，例如 SGDRegressor
检查您的 RandomForest 模型的 feature_importances_ 属性，然后在删除不重要的特征后根据 3 或 4 年的数据重新训练您的模型
如果您只能使用两年的数据，则仅使用最近两年的数据训练您的模型
在从所有四年数据中抽取的随机子集上训练您的模型。
更改tree_depth 参数以限制模型的复杂程度。这可以节省计算时间，因此可以让您使用所有数据。它还可以防止过度拟合。使用交叉验证为您的问题选择最佳的树深度超参数
如果您还没有设置您的 RF 模型的参数 n_jobs=-1，以便在您的机器上使用多个内核/处理器。
使用更快的基于集成树的算法，例如 xgboost
在云中的大型机器上运行模型拟合代码，例如 AWS 或 dominodatalab

关于python - 使用python sklearn增量训练随机森林模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44060432/

25

4

0

文章推荐： python - Mypy 错误 - 赋值中的类型不兼容

文章推荐： c# - 错误 101 (net::ERR_CONNECTION_RESET):连接已重置

文章推荐： c# - 如何在 C# 中调整图像大小？

文章推荐： python - 我如何移动 'index'的 'list'方法的偏移量

Java 增量 i = i++;
这个问题已经有答案了: What is x after "x = x++"? (18 个回答) 已关闭 6 年前。 public static void main(String[] args)
jQuery循环插件交错/增量
我目前正在使用 jquery 循环插件。我有 3 个不同的幻灯片，它们彼此相邻并同时循环播放。我想做的是先关闭第一张幻灯片，然后是第二张幻灯片，然后是第三张幻灯片。无论如何，我可以通过增量或超时来做到
JavaScript 增量
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: ++someVariable Vs. someVariable++ in Javascript 我知道您可以
svn --增量 : How to use it and what it does?
我一直在查看 SVN 手册，但无法找到“svn log”和“svn st”的“--incremental”选项的简单用法示例或解释。我正在编写一个开源 SVN GUI 前端，因此我需要一些有关此标志
r - 从矩阵的对角线计算平均值 + 增量
我有这种矩阵。非常抱歉，我没有可重现的示例。表 1: [,1][,2][,3][,4][,5][,6][,7][,8][,9][,10] [1,] 3 NA NA NA
dataframe - 使用数据框在Spark中处理数据差异(增量)
我在hdfs中有一个 Parquet 文件作为我的数据的初始加载。接下来的所有拼花地板只是这些数据集每天都会更改为初始负载(按时间顺序)。这是我的三角洲。我想读取全部或部分 Parquet 文件，以
Javascript Ceil 增量
我目前有这样的功能，可以将任何输入数字四舍五入到最接近的模糊整数值: $(function(){ $('#my_value').blur(function() { $(this).va
c - 如何设计循环数列(增量)？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求提供代码的问题必须表现出对所解决问题的最低限度的了解。包括尝试的解决方案、为什么它们不起作用以及预期结果
java - SQL检查3列+增量
我对 SQL 还很陌生，我想知道我是否可以使用它来自动解决我数据库中的一个复杂问题。也就是说，我每天都在跟踪条目。因此，我们关注的列是: YYYY MM DD XXX YYYY 是年，MM 是月，D
mysql - 数据透视表以外的其他方式 - 增量
我正在开发一个非常简单的数据库，但我不知道数据透视表是否是一个很好的解决方案。如果我使用数据透视表，我需要添加无用的表只是为了增量。让我们从头开始。在用户注册期间，会创建一个新表 GROUP。在G
mysql - 选择查询中的临时变量赋值/增量
在 MySQL 中你可以做这样的事情 SELECT @n := @n + 1 n, first_name, last_name FROM table1, (SELECT
C++增量++运算符重载
如果我正在使用一个类，我知道如何重载运算符 += class temp { public: int i; temp(){ i = 10; } int operator+=(in
Linux Grep 增量
我有两个文件:file1、file2。我想从 file2 中获取 file1 中不存在的行。我读过 post这告诉我使用 grep 的 -v 标志来执行此操作(我阅读了 grep 的手册页，但仍然不
python - 如何使用python日期时间函数/增量？
我看了很多类似的题，功能很简单，用于API的嵌套for循环，每分钟可以调用5次。所以我将一年数据的范围设置为 75。你们能帮我解决这个问题吗？提前致谢! 第一部分正在运行，输入列表中的邮政编码。 fo
python - 计算数据框的每日返回/增量
所以我想计算每日返回/增量的一些时间序列数据，其中每日增量 = value_at_time(T)/value_at_time(T-1) import pandas as pd df=pd.DataFr
c++ - 增量、前增量和后增量
请帮我解决这个问题。该表达式之后的步骤是: //Expression offSpring1[m1++] = temp1; //Steps: 1.- increment m1 2.- assign te
java - 增量/选择性同步远程系统
我正在开发一个解决方案，在该解决方案中，我通过 webapp 不同类型的实体(例如中央数据库上的用户、组、部门信息)和 ldap 进行身份验证。但是最终用户将与来自远程位置(他的办公室、节点)的数据交
python - 获取两个字典列表之间的差异(增量)
我有以下 Python 数据结构: data1 = [{'name': u'String 1'}, {'name': u'String 2'}] data2 = [{'name': u'String
java - AtomicInteger 增量
如果 AtomicInteger 会发生什么？达到 Integer.MAX_VALUE 并递增？值会回到零吗？最佳答案由于integer overflow，它会环绕, 到 Integer.MIN
c - 0.00001 增量
我是 C 的初学者，我正在尝试在 While 循环中进行 0.00001 增量。例如，double t = 0.00001 并且我希望循环每次以 0.00001 的增量运行，第二次是 0.00002

首页

博学

6Ren·AI

商城

python - 使用python sklearn增量训练随机森林模型