python - R 或 Python - 循环测试数据 - 接下来 24 小时的预测验证(每天 96 个值)

转载作者：太空宇宙更新时间：2023-11-04 00:13:05

26

4

我有一个大数据集，低于训练和测试数据集

train_data是从2016-01-29到2017-12-31

head(train_data)
        date           Date_time Temp     Ptot      JFK      AEH      ART       CS       CP
1 2016-01-29 2016-01-29 00:00:00 30.3 1443.888 52.87707 49.36879 28.96548 6.239999 49.61212
2 2016-01-29 2016-01-29 00:15:00 30.3 1410.522 49.50248 49.58356 26.37977 5.024000 49.19649
3 2016-01-29 2016-01-29 00:30:00 30.3 1403.191 50.79809 49.04253 26.15317 5.055999 47.48126
4 2016-01-29 2016-01-29 00:45:00 30.3 1384.337 48.88359 49.14100 24.52135 5.088000 46.19261
5 2016-01-29 2016-01-29 01:00:00 30.1 1356.690 46.61842 48.80624 24.28208 5.024000 43.00352
6 2016-01-29 2016-01-29 01:15:00 30.1 1341.985 48.09687 48.87748 24.49988 4.975999 39.90505

test_data是从2018-01-01到2018-07-12

tail(test_data)
            date           Date_time Temp     Ptot      JFK      AEH      ART    CS       CP
86007 2018-07-12 2018-07-12 22:30:00 64.1 1458.831 82.30099 56.93944 27.20252 2.496 54.41050
86008 2018-07-12 2018-07-12 22:45:00 64.1 1457.329 61.68535 54.28934 28.59752 3.728 54.15208
86009 2018-07-12 2018-07-12 23:00:00 63.5 1422.419 80.56367 56.40752 27.99190 3.520 53.85705
86010 2018-07-12 2018-07-12 23:15:00 63.5 1312.021 52.25757 56.40283 22.03727 2.512 53.72166
86011 2018-07-12 2018-07-12 23:30:00 63.5 1306.349 65.65347 56.20145 22.77093 3.680 52.71584
86012 2018-07-12 2018-07-12 23:45:00 63.5 1328.528 57.47283 57.73747 19.50940 2.432 52.37458

我想在 test_data 中进行 24 小时(从 2018-01-01 到 2018-07-12 的每一天) 的预测验证循环。每天的预测是 (96) 个值 - 15 分钟采样 -。也就是说，我每次都要选取96个值，放到代码所示的test_data中，计算MAPE。

目标变量:Ptot

预测因素:Temp、JFK、AEH、...等

我完成了如下所示的预测

input = train_data[c("Temp","JFK","AEH","ART","CS","CP","RLF", "FH" ,"TJF" ,"GH" , "JPH","JEK", "KL", "MH","MC","MRH", "PH","OR","RP","RC","RL","SH", "SPC","SJH","SMH","VWK","WH","Month","Day", "Year","hour")] target = train_data["Ptot"] glm_model <- glm(Ptot~ ., data= c(input, target), family=gaussian)
我想遍历“test_data”-创建一个循环-通过每次从测试表中依次进行 96 次观察-96 行-直到数据集结束并计算 MAPE 并保存所有的值(value)。我在 R 中实现了这个。
如下图所示。每次从 (test_data) 中取出 96 行并将它们放入函数的“test_data”中。这只是一个解释，没有显示所有 96 个值:)
这是我必须为其创建循环的函数

pred<- predict.glm(glm_model,test_data) mape <- function(actual, pred){ return(100 * mean(abs((actual- pred)/actual))) }
我将展示如何进行第一天的预测验证
1- 从 test_data 中选择 96 个值(即 2018-01-01)

One_day_data <- test_data[test_data$date == "2018-01-01",]
2- 在函数中放入一天的值

pred<- predict.glm(glm_model,One_day_data )
3-这是运行pred后的预测结果(96个值=一天)

print(pred) 67489 67490 67491 67492 67493 67494 67495 67496 67497 67498 1074.164 1069.527 1063.726 1082.404 1077.569 1071.265 1070.776 1073.686 1061.720 1063.554 67499 67500 67501 67502 67503 67504 67505 67506 67507 67508 1074.264 1067.393 1071.111 1076.754 1079.700 1071.244 1097.977 1089.862 1091.817 1098.025 67509 67510 67511 67512 67513 67514 67515 67516 67517 67518 1125.495 1133.786 1136.545 1138.473 1176.555 1183.483 1184.795 1186.220 1192.328 1187.582 67519 67520 67521 67522 67523 67524 67525 67526 67527 67528 1186.513 1254.844 1262.021 1258.816 1240.280 1229.237 1237.582 1250.030 1243.189 1262.266 67529 67530 67531 67532 67533 67534 67535 67536 67537 67538 1251.563 1242.417 1259.352 1269.760 1271.318 1266.984 1260.113 1247.424 1200.905 1198.161 67539 67540 67541 67542 67543 67544 67545 67546 67547 67548 1202.372 1189.016 1193.479 1194.668 1207.064 1199.772 1189.068 1176.762 1188.671 1208.944 67549 67550 67551 67552 67553 67554 67555 67556 67557 67558 1199.216 1193.544 1215.866 1209.969 1180.115 1182.482 1177.049 1196.165 1145.335 1146.028 67559 67560 67561 67562 67563 67564 67565 67566 67567 67568 1161.821 1163.816 1114.529 1112.068 1113.113 1107.496 1073.080 1082.271 1097.888 1095.782 67569 67570 67571 67572 67573 67574 67575 67576 67577 67578 1081.863 1068.071 1061.651 1072.511 1057.184 1068.474 1062.464 1061.535 1054.550 1050.287 67579 67580 67581 67582 67583 67584 1038.086 1045.610 1038.836 1030.429 1031.563 1019.997
我们可以从“Ptot”中得到实际值

actual<- One_day_data$Ptot [1] 1113.398 1110.637 1111.582 1110.816 1101.921 1111.091 1108.501 1112.535 1104.631 1108.284 [11] 1110.994 1106.585 1111.397 1117.406 1106.690 1101.783 1101.605 1110.183 1104.162 1111.829 [21] 1117.093 1125.493 1118.417 1127.879 1133.574 1136.395 1139.048 1141.850 1145.630 1141.288 [31] 1141.897 1140.310 1138.026 1121.849 1122.069 1120.479 1120.970 1111.594 1109.572 1116.355 [41] 1115.454 1113.911 1115.509 1113.004 1119.440 1112.878 1117.642 1100.516 1099.672 1109.223 [51] 1105.088 1107.167 1114.355 1110.620 1110.499 1110.161 1107.868 1118.085 1108.166 1106.347 [61] 1114.036 1106.968 1109.807 1113.943 1106.869 1104.390 1102.446 1110.770 1114.684 1114.142 [71] 1118.877 1128.470 1133.922 1128.420 1134.058 1142.529 1126.432 1127.824 1124.561 1130.823 [81] 1122.907 1117.422 1116.851 1114.980 1114.543 1108.584 1120.410 1120.900 1109.226 1101.367 [91] 1098.330 1110.474 1106.010 1108.451 1095.196 1096.007
4-运行Mape函数并保存结果(我有实际值)

mape <- function(actual, pred){ return(100 * mean(abs((actual- pred)/actual))) }
5- 在接下来的 24 小时(即 2018-01-02)做同样的事情，依此类推

不完整的解决方案，这是不正确的! (我觉得应该是这样的)

result_df =[] for (i in 1:96){ test_data<- test_data[i,] pred<- predict.glm(glm_model,test_data) result_df$pred[i] <- pred result_df$Actual[i+1] <- result_df$pred[i] mape[i] <- function(actual, pred){ return(100 * mean(abs((actual- pred)/actual))) } }
总结:我想通过每次递增一天到 pred 来存储 mape 的所有值。
注意: 如果您能向我展示 R 和/或 Python 中的循环过程，我将不胜感激。

最佳答案

考虑构建一个通用函数 mape_calc，以接收子集数据帧作为输入并在 R 的 by 中调用该函数。作为tapply 的面向对象包装器，by 将按每个不同的date 对主数据帧进行子集化，将子集传递到定义的函数中进行计算。

在该方法中，构建了一个新的单行数据框以将 map 与每个日期对齐。然后用do.call将所有行绑定(bind)在一起:

mape_calc <- function(sub_df) { pred <- predict.glm(glm_model, sub_df) actual <- sub_df$Ptot mape <- 100 * mean(abs((actual - pred)/actual)) new_df <- data.frame(date = sub_df$date[[1]], mape = mape) return(new_df) } # LIST OF ONE-ROW DATAFRAMES df_list <- by(test_data, test_data$date, map_calc) # FINAL DATAFRAME final_df <- do.call(rbind, df_list)

如果您在 Python pandas 和 numpy 中有相同的设置(对于 glm 模型可能是 statsmodels)，请使用 pandas DataFrame.groupby 作为 R 的 by 的对应项。当然，根据您的实际需要调整下面的伪代码。

import pandas as pd import numpy as np import statsmodels.api as sm ... train_data = sm.add_constant(train_data) model_formula = 'Ptot ~ Temp + JFK + AEH + ART + CS + CP ...' glm_model = sm.glm(formula = model_formula, data = train_data.drop(columns=['date','Date_time']), family = sm.families.Gaussian()).fit() def mape_calc(dt, sub_df): pred = glm_model.predict(sub_df.drop(columns=['date','Date_time','Ptot'])) actual = sub_df['Ptot'] mape = 100 * np.mean(np.abs((actual - pred)/actual)) new_df = pd.DataFrame({'date': dt, 'mape': mape}, index=[0]) return new_df # LIST OF ONE-ROW DATAFRAMES df_list = [mape_calc(i, g) for i, g in test_data.groupby('date')] # FINAL DATAFRAME final_df = pd.concat(df_list, ignore_index=True)

关于python - R 或 Python - 循环测试数据 - 接下来 24 小时的预测验证(每天 96 个值)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51804842/

26

4

0

文章推荐： node.js - Mongodb Node.js $lookup 带日期和 $match

文章推荐： node.js - 使用 Node.js 和 Handlebars 显示 JSON 数据

文章推荐： node.js - 如何使用家长 ID 添加家长姓名及其姓名

文章推荐： c - && 运算符在两个字符串之间时有何作用？

jsf - Bean 验证 VS JSF 验证
在 JSF2 应用程序中遇到验证属性的问题时，有两种主要方法。使用 Annotation 在 ManagedBean 上定义验证 @ManagedBean public class MyBean {
javascript - Jquery 验证。验证 "keyup"并在密码正确时隐藏表单
我想实现一个不常见的功能，我认为 jquery 验证插件将是最好的方法(如果您在没有插件的情况下建议和回答，我们也会欢迎)。我想在用户在输入字段中输入正确的单词后立即隐藏表单。我试过这个: $("
javascript - jQuery 验证 - 同一类的 NotEqual 验证
我有几个下拉菜单(类名为month_dropdown)，并且下拉菜单的数量不是恒定的。我怎样才能为它们实现 NotEqual 验证。我正在使用 jQuery 验证插件。这就是我写的 - jQuery
php - Javascript 中的 URL 验证 InstaGram 验证
我设法制作了这个网址验证代码并且它起作用了。但我面临着一个问题。我认为 stackoverflow 是获得解决方案的最佳场所。 function url_followers(){ var url=do
java - 验证/验证 Google Play 游戏服务 ID？
我目前正在使用后端服务，该服务允许用户在客户端应用程序上使用 Google Games 库登录。用户可以通过他们的 gplay ID 向我们发送信息，以便登录或恢复旧帐户。用户向我们发送以下内容，包
完整和部分 IP 的 python IP 验证 REGex 验证
我正在尝试验证输入以查看它是否是有效的 IP 地址(可能是部分地址)。可接受的输入:172、172.112、172.112.113、172.112.113.114 Not Acceptable 输入
regex - Mongoose 验证 : required : false, 验证 : regex, 问题与空值
我从 Mongoose 验证中得到这条消息: 'Validator failed for path phone with value ``' 这不应该发生，因为不需要电话。这是我的模型架构: var
openssl - 使用 .start_tls_s() 时如何强制 Python LDAP 验证/验证 SSL 证书
我一直在尝试使用Python-LDAP (版本 2.4.19)在 MacOS X 10.9.5 和 Python 2.7.9 下我想在调用 .start_tls_s() 后验证与给定 LDAP 服务
javascript - 在 VS 2017 中禁用一个项目的 ESLint/CSSLint/Javascript 验证/CSS 验证
我正在处理一个仅与 IE6 兼容的旧 javascript 项目(抱歉...)，我想仅在 VS 2017 中禁用此项目的 ESLint/CSLint/Javascript 验证/CSS 验证。我知道
spring - 使用 Hibernate Validator 验证 double 和 float 值 - bean 验证
我正在寻找一种方法来验证 Spring 命令 bean 中的 java.lang.Double 字段的最大值和最小值(一个值必须位于给定的值范围之间)，例如, public final class W
java - 无法执行目标org.apache.maven.plugins :maven-failsafe-plugin:2. 12:验证(验证)
我正在尝试在 springfuse(JavaEE 6 + Spring Framework (针对 Jetty、Tomcat、JBoss 等)) 和 maven 的帮助下构建我的 webapps 工作
Scalaz 验证
我试图在我们的项目中使用 scalaz 验证，但遇到了以下情况: def rate(username: String, params: Map[String, String]): Validation
YamlLint 验证
我有一个像这样的 Yaml 文件 name: hhh_aaa_bbb arguments: - !argument name: inputsss des
JavaScript 验证
我有一个表单，人们可以单击并向表单添加字段，并且我需要让它在单击时验证这些字段中的值。假设我单击它两次并获取 2 个独立的字段集，我需要旋转 % 以确保它在保存时等于 100。我已放入此函数以使其
JavaScript 验证
在我的页面中有一个选项可以创建新的日期字段输入框。用户可以根据需要创建尽可能多的“截止日期”和“起始日期”框。就像，日期_to1 || date_from1 日期到2 ||日期_from2 date
YamlLint 验证
我有一个像这样的 Yaml 文件 name: hhh_aaa_bbb arguments: - !argument name: inputsss des
Jquery 验证
有没有办法在动态字段上使用 jquery 验证表单。我想将其设置为必填字段我正在使用 Jsp 动态创建表单字段。喜欢等等...... 我想使用必需的表单字段验证此表单字段。最佳答
JavaScript 验证
嗨，任何人都可以通过提供 JavaScript 代码来帮助我验证用户名文本框不应包含数字，它只能包含一个字符。最佳答案使用正则表达式: (\d)+ 如果找到匹配项，则字符串中就有一个数字。关于J
JavaScript 验证
我有两个输入字段holidayDate和Description(id=tags) $(document).ready(function() {
JavaScript 验证 :
我遇到了这个问题，这些验证从电子邮件验证部分开始就停止工作。我只是不明白为什么即使经过几天的观察，只是想知道是否有人可以在这里指出我的错误？ Javascript部分: function valid

首页

博学

6Ren·AI

商城

python - R 或 Python - 循环测试数据 - 接下来 24 小时的预测验证(每天 96 个值)

train_data是从2016-01-29到2017-12-31

test_data是从2018-01-01到2018-07-12

目标变量:Ptot

预测因素:Temp、JFK、AEH、...等

我完成了如下所示的预测

这是我必须为其创建循环的函数

我将展示如何进行第一天的预测验证

1- 从 test_data 中选择 96 个值(即 2018-01-01)

2- 在函数中放入一天的值

3-这是运行pred后的预测结果(96个值=一天)

我们可以从“Ptot”中得到实际值

4-运行Mape函数并保存结果(我有实际值)

5- 在接下来的 24 小时(即 2018-01-02)做同样的事情，依此类推

不完整的解决方案，这是不正确的! (我觉得应该是这样的)

总结:我想通过每次递增一天到 pred 来存储 mape 的所有值。