- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
Givens: 我有一组一天的时间序列数据,比如 96 个值。我有一个累积值,比如在给定时间段内有 101 个单位。
问题:我需要找到阈值 X,其中所有高于该阈值的值总和为给定的累积值 101。请参见下图的视觉效果:
约束:我必须多次执行此计算(一年中的每一天),因此最好避免迭代,但不是必需的。
示例数据:
DateTime Usage_KWH
1/1/2015 0:15 10.32
1/1/2015 0:30 10.56
1/1/2015 0:45 9.84
1/1/2015 1:00 9.36
1/1/2015 1:15 10.32
1/1/2015 1:30 9.6
1/1/2015 1:45 9.6
1/1/2015 2:00 10.32
1/1/2015 2:15 9.84
1/1/2015 2:30 9.6
1/1/2015 2:45 10.08
1/1/2015 3:00 9.36
1/1/2015 3:15 9.84
1/1/2015 3:30 10.32
1/1/2015 3:45 9.84
1/1/2015 4:00 9.84
1/1/2015 4:15 10.08
1/1/2015 4:30 9.6
1/1/2015 4:45 9.6
1/1/2015 5:00 10.8
1/1/2015 5:15 9.6
1/1/2015 5:30 9.84
1/1/2015 5:45 14.76
1/1/2015 6:00 14.4
1/1/2015 6:15 14.76
1/1/2015 6:30 15.12
1/1/2015 6:45 14.4
1/1/2015 7:00 14.4
1/1/2015 7:15 14.04
1/1/2015 7:30 12.96
1/1/2015 7:45 14.04
1/1/2015 8:00 12.6
1/1/2015 8:15 12.96
1/1/2015 8:30 14.04
1/1/2015 8:45 12.96
1/1/2015 9:00 17.28
1/1/2015 9:15 17.28
1/1/2015 9:30 17.76
1/1/2015 9:45 17.28
1/1/2015 10:00 17.76
1/1/2015 10:15 16.8
1/1/2015 10:30 17.28
1/1/2015 10:45 19.68
1/1/2015 11:00 17.28
1/1/2015 11:15 16.8
1/1/2015 11:30 16.8
1/1/2015 11:45 17.28
1/1/2015 12:00 16.8
1/1/2015 12:15 17.28
1/1/2015 12:30 17.28
1/1/2015 12:45 16.8
1/1/2015 13:00 17.28
1/1/2015 13:15 16.8
1/1/2015 13:30 16.8
1/1/2015 13:45 17.28
1/1/2015 14:00 25.92
1/1/2015 14:15 25.2
1/1/2015 14:30 25.2
1/1/2015 14:45 25.2
1/1/2015 15:00 25.2
1/1/2015 15:15 25.92
1/1/2015 15:30 25.2
1/1/2015 15:45 25.92
1/1/2015 16:00 25.92
1/1/2015 16:15 23.76
1/1/2015 16:30 23.76
1/1/2015 16:45 23.76
1/1/2015 17:00 24.48
1/1/2015 17:15 25.92
1/1/2015 17:30 8.88
1/1/2015 17:45 9.12
1/1/2015 18:00 8.88
1/1/2015 18:15 9.6
1/1/2015 18:30 8.88
1/1/2015 18:45 9.12
1/1/2015 19:00 9.12
1/1/2015 19:15 9.6
1/1/2015 19:30 9.12
1/1/2015 19:45 8.88
1/1/2015 20:00 9.12
1/1/2015 20:15 9.36
1/1/2015 20:30 9.12
1/1/2015 20:45 8.88
1/1/2015 21:00 6
1/1/2015 21:15 6
1/1/2015 21:30 6
1/1/2015 21:45 4
1/1/2015 22:00 5
1/1/2015 22:15 6
1/1/2015 22:30 7
1/1/2015 22:45 5
1/1/2015 23:00 7
1/1/2015 23:15 4
1/1/2015 23:30 6
1/1/2015 23:45 5
我糟糕的迭代代码:
time_series_df = pd.DataFrame(time_series_list)
#Iterative approach taking 10 steps
for x in (time_series_df.max, time_series_df.min, -(time_series_df.max)/10):
#Getting values above an arbitrary threshold
temp = time_series_df.query('Usage_KWH > @x')
#If the difference above threshold and aggregate sum for the day are less than given cumulative value then try again
if time_series_df.sum - temp < 101:
final_threshold = temp
#print the highest value that did not exceed 101
print('final answer', final_threshold)
额外:我尝试使用 clip_upper、rank、cumsum、quantile 和 nlargest 的变体。我正在使用 Pandas 0.18
最佳答案
此处的技巧是对数据进行排序。这是一种方法。可能会提高速度!
df2 = df.sort_values(['Usage_KWH'], ascending=[False]).reset_index()
df2['KWHcum'] = df2['Usage_KWH'].cumsum()/ (df2.index+1)
df2["dif"] = np.round( df2['KWHcum'] - df2['Usage_KWH'], 3)*(df2.index+1)
df2
# index DateTime Usage_KWH KWHcum dif
# 0 1/1/2015 14:00 25.92 25.920000 0.0000
# 1 1/1/2015 16:00 25.92 25.920000 0.0000
# 2 1/1/2015 15:45 25.92 25.920000 0.0000
# 3 1/1/2015 15:15 25.92 25.920000 0.0000
# 4 1/1/2015 17:15 25.92 25.920000 0.0000
# 5 1/1/2015 14:45 25.20 25.800000 3.6000
# 6 1/1/2015 14:15 25.20 25.714286 3.6001
# 7 1/1/2015 15:30 25.20 25.650000 3.6000
# 8 1/1/2015 14:30 25.20 25.600000 3.6000
# 9 1/1/2015 15:00 25.20 25.560000 3.6000
# 10 1/1/2015 17:00 24.48 25.461818 10.7998
# 11 1/1/2015 16:30 23.76 25.320000 18.7200
# 12 1/1/2015 16:45 23.76 25.200000 18.7200
# 13 1/1/2015 16:15 23.76 25.097143 18.7194
# 14 1/1/2015 10:45 19.68 24.736000 75.8400
# 15 1/1/2015 9:30 17.76 24.300000 104.6400
# 16 1/1/2015 10:00 17.76 23.915294 104.6401
# 17 1/1/2015 11:00 17.28 23.546667 112.8006
# 18 1/1/2015 9:45 17.28 23.216842 112.7992
# 19 1/1/2015 12:30 17.28 22.920000 112.8000
# 20 1/1/2015 10:30 17.28 22.651429 112.7994
# 21 1/1/2015 12:15 17.28 22.407273 112.8006
# 22 1/1/2015 13:00 17.28 22.184348 112.7989
# 23 1/1/2015 11:45 17.28 21.980000 112.8000
# 24 1/1/2015 13:45 17.28 21.792000 112.8000
# 25 1/1/2015 9:00 17.28 21.618462 112.8010
# 26 1/1/2015 9:15 17.28 21.457778 112.8006
# 27 1/1/2015 11:15 16.80 21.291429 125.7592
# 28 1/1/2015 11:30 16.80 21.136552 125.7614
# 29 1/1/2015 10:15 16.80 20.992000 125.7600
df2 = df2[df2['dif'] < 101]
print df2['Usage_KWH'].tail(1)
# 14 19.68
# Name: Usage_KWH, dtype: float64
df2 = df2[df2['dif'] < 141]
print df2['Usage_KWH'].tail(1)
#33 16.8
#Name: Usage_KWH, dtype: float64
关于algorithm - Pandas:求解时间序列数据集的最高值阈值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38134690/
我刚刚开始学习,我的一项练习需要帮助。 我需要最终用户输入每个月的降雨量。然后我需要输出平均降雨量、最高月份和最低月份以及降雨量高于平均水平的月份。 我一直在最高和最低中得到相同的数字,我不知道为什么
我试图让一排 div 都与最高的那个的高度相匹配,所以它们看起来是统一的。 我已经阅读了很多这方面的资料,但似乎找不到任何适用于跨浏览器的解决方案。 我目前使用的脚本是: var maxHei
我有一个像 [1,4,3,1,6,5,1,4,4] 的数组 这里最高元素频率是 3 ,我需要从数组中选择频率为 3 的所有元素,如上例中的 [1,4] 。 我已经尝试过这个 var count = {
我有一个学生记录列表,grades ,我想按 GPA 排序,返回前 5 个结果。由于某种原因count awk '{ if (count awk '{ if (count<=8) print $3,
我有一个用于显示博客文章的页面。在页面的开头,我使用以下 SQL 获取数据: SELECT posts.*, count(comments.post_id) as number_of_comments
我有一张 table 城市 |状态|比赛|值(value) 可以有多个相同城市/州/种族和不同值的记录。 我想创建一个新表,其中每个城市|州|种族有一条记录 与 计数(原始表中包含城市/州/种族的记录
我是一名初级 Java 程序员(例如 0 级...)。我正在做这个项目,但我已经被难住了好几天了。我可能还有很多我没有注意到的小错误。 项目是这样的: 要求用户输入从 0.00 到 100.00 的一
我已经对我的数据进行了分组。现在,我要做的是每周从“高”列中选择最高值,并从“低”列中选择最低值,然后使用最高值减去最低值得到范围。但是代码总是错误的。有人对我有想法吗? 这是我的 DataFrame
所以几个月前我在参加编程面试时,由于某种原因这个问题让我绊倒了。我可以想到几个解决方案,但其中大多数似乎效率极低。虽然多年来我一直以某种身份进行编程,但我目前正在大学攻读 CS 学位,所以我的引用点可
我已经制定了一个程序来显示给定日期的特定时间的最高和最低流行项目。该过程没有错误或异常,并且一切正常。如您所见,为了显示 Items 的第一条记录,查询重复了两次,但唯一的区别在于顺序(ASC 和 D
我正在尝试将配对的 div 设置为相同的高度。 Some text Some text Some textSome textSome textSome textSome text Som
R 提供了最大值和最小值,但除了对整个向量进行排序然后从此向量中选取值 x 之外,我没有看到一种真正快速的方法来查找顺序中的另一个值。 例如,是否有更快的方法来获取第二高值? 最佳答案 使用sort(
这是我的命令: top -b -n 1 | head -3 | tail -n 1 | awk '{ print $2 }' 我运行一个 bash 脚本来获取这些详细信息(还有平均负载和内存消耗)并将
对于这个计划,我的目标是...使用 findKth 查找最高分、最低分、中位数和平均分用户必须输入数字(输入-1以停止扫描),但他们不知道有多少个以及是否已排序但是,我在尝试执行此操作时遇到了一些问题
我正在创建这个网站: https://www.melkerhei.be/smeltkroes/index.html 左上角的标志应该是可以点击的。这是代码:
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 9 年前。 Improve this
我的 table 是这样的: name | var ---------------- Joe | 3 Liz | 1 Liz | 4 Joe | 2 Peter
我有这个: function sayHello() { return new Promise( resolve => { throw new Error('reject');
JSFiddle:Example 我正在寻找一种方法来使容器 div 的高度等于其最高的子级。 每个其他子项的大小都应调整为容器的高度。 如果子元素超出其宽度,我还需要容器水平滚动。 到目前为止,我已
我有一个大小为 208 的列表(208 个句子数组),它看起来像: all_words = [["this is a sentence ... "] , [" another one hello bo
我是一名优秀的程序员,十分优秀!