- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我想找出一行的值连续达到最大值的次数。
Ps1:我的数据有500K行,所以我比较关心计算速度
Ps2:在这个例子中,startDay =1 和 endDay=7 但一些行有不同的开始或结束日期。 (例如 startDay=2、endDay=5 或开始日=4,结束日=3。 arr_bool 控制这个条件)
我的数据:
import pandas as pd
import numpy as np
idx = ['id1', 'id2', 'id3', 'id4', 'id5',
'id6', 'id7', 'id8', 'id9', 'id10']
data = {'Day1':[0,0,1,0,1,1,0,0,1,1],
'Day2':[0,1,1,1,2,1,0,1,1,2],
'Day3':[1,3,1,1,1,0,0,1,3,2],
'Day4':[1,2,0,1,1,0,0,2,1,1],
'Day5':[0,2,1,1,1,1,0,2,1,1],
'Day6':[1,0,1,1,2,1,0,2,1,1],
'Day7':[0,0,0,1,1,1,0,0,3,1]}
startday = pd.DataFrame([1,1,1,1,1,1,1,1,1,1],columns=['start'], index=idx)
endday = pd.DataFrame([7,7,7,7,7,7,7,7,7,7],columns=['end'], index=idx)
df = pd.DataFrame(data, index=idx)
Neg99 = -999
Neg90 = -900
我应该搜索每一行的时间间隔。(就像从开始日到结束日的循环)我可以在时间间隔内找到最大值,但找不到连续命中最大值的行的值计数。
arr_bool = (np.less_equal.outer(startday.start, range(1,8))
& np.greater_equal.outer(endday.end, range(1,8))
)
df_result = pd.DataFrame(df.mask(~arr_bool).max(axis=1),
index=idx, columns=['result'])
最后条件:
df_result.result= np.select( condlist = [startday.start > endday.end,
~arr_bool.any(axis=1)],
choicelist = [Neg99,Neg90],
default = df_result.result)
我想要的结果;
result_i_want = pd.DataFrame([2,1,3,6,1,3,0,3,1,2],columns=['result'], index=idx)
这是@WeNYoBen 的解决方案,但运行速度很慢;
s=((df.eq(df.max(1),0))&(df.ne(0)))
s.apply(lambda x : x[x].groupby((~x).cumsum()).count().max(),1).fillna(0)
最佳答案
这项工作的重点是 OP 要求速度。这应该有所帮助。如果您可以访问像 numba
这样的 JIT 库,您应该使用它并循环遍历每一行。
sd = startday.start.values
ed = endday.end.values
dr = ed - sd + 1
i = np.arange(len(df)).repeat(dr)
j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)])
v = df.values
mx = np.empty(len(v), dtype=v.dtype)
mx.fill(v.min())
np.maximum.at(mx, i, v[i, j])
b = np.ones((v.shape[0], v.shape[1] + 2), bool)
b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0)
x, y = np.where(b)
y_ = np.diff(y)
mask = y_ > 0
y__ = y_[mask]
x__ = x[1:][mask]
c = np.empty(len(v), int)
c.fill(y__.min())
np.maximum.at(c, x__, y__)
c - 1
array([2, 1, 3, 6, 1, 3, 0, 3, 1, 2])
我将不理会显而易见的事情。
这表示每个区间的天数
dr = ed - sd + 1
i
是 j
i = np.arange(len(df)).repeat(dr)
j = np.concatenate([np.arange(s - 1, e) for s, e in zip(sd, ed)])
mx
将是每个间隔的最大值。
b
将是一个 bool 数组,宽度比 v
多 2 列。对于这种情况,它看起来像:
# Buffer Buffer
# /--\ /--\
array([[ True, True, True, False, False, True, False, True, True],
[ True, True, True, False, True, True, True, True, True],
[ True, False, False, False, True, False, False, True, True],
[ True, True, False, False, False, False, False, False, True],
[ True, True, False, True, True, True, False, True, True],
[ True, False, False, True, True, False, False, False, True],
[ True, False, False, False, False, False, False, False, True],
[ True, True, True, True, False, False, False, True, True],
[ True, True, True, False, True, True, True, False, True],
[ True, True, False, False, True, True, True, True, True]])
缓冲区列的原因是我可以在使用 np.where
后计算位置差异
现在我填充 b
,其中 v
值不等于 mx
中的最大值
# not equal to max is equal to zero
b[i, j + 1] = (v[i, j] != mx[i]) | (mx[i] == 0)
然后我找到这些位置在 y
中的位置。
通过diff
,我找到了从一个不等于最大值的实例到下一个不等于最大值的位置的位置数。这将始终比我们正在寻找的数字大 1,但我们稍后会更正。
此外,diff
会将长度减少一个,但实际上,有一堆我们不需要的东西,因为我不需要从一行中获取相对于一行的差异前一行。幸运的是,我可以去掉所有零差或负差,因为它们没有意义。
我再次使用 np.maximum.at
,但这次在差异上找到最大的差异,这将是每行连续最大值的最长长度。
注意其实还不止一个
呸。我厌倦了打字...
关于python - 如何找到一行的值连续达到最大值的次数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56190740/
我已经下载了 RStudio,在打开我的代码所在的文件时,我似乎已经达到了容量限制: The file is 2.3MB the maximum file size is 2MB The file i
我有一个按钮,每次单击时,都会将 1 添加到变量中。当此变量超过 5 时,将触发警报。然而,此后触发器仍不断激活。我尝试使用 == 而不是 > 进行检查,但它做同样的事情。有什么想法吗? http:/
我正在将Slick 3.0与HikariCP 2.3.8一起使用(也可以玩2.4) 我做了很多数据库IO,并且不断达到队列限制。 有没有一种方法可以获取当前的队列大小,以及如何增加队列大小? 还是建议
在 Salesforce 中,您可以设置各种工作流程或构建用于发送电子邮件的 API 应用程序。对于大多数标准 Salesforce 组织,每天有 1000 封电子邮件的限制。 (例如,参见 here
我有一个类是这样的: public sealed class Contract { public bool isExpired { get; set; } public DateTim
我有一个带有特殊符号按钮的输入作为附加组件。 HTML
我正在尝试压缩 pdf 文件(有时是图像)。我需要一个 java 压缩器来帮助我压缩文件。我需要尺寸小于原始文档尺寸的一半。我尝试了java api中给出的deflator。但它并不是很成功。请帮我解
我正在使用这条线来创建淡入效果。 $('#div').css({opacity: 0, visibility:"visible"}).animate({opacity: 1}, 500); 可见类达到
我使用 URLCache 来缓存请求响应,最大容量如下: let diskCapacity = 100 * 1024 * 1024 let memoryCapacity = 100
我有一个计数器函数,我从这个 Answer 得到它: function countDown(i) { var int = setInterval(function () {
下面是一段代码,用于检查给定数字是否为 Lychrel 数字。这基本上意味着该程序取一个数及其倒数之和,然后取那个数及其倒数之和,等等,直到找到回文。如果它在一定的迭代次数内没有找到这样的数字(我在这
我即将对这个可怕的旧 Java Web 应用程序做一些工作,这是我的一个 friend 不久前继承的。 在我设置 tomcat、导入项目和所有这些到我的 eclipse 工作区后,我收到此错误,指出
我有一个 NSDictionary 对象,其中包含深层结构,例如包含包含字典的进一步数组的数组... 我想在层次结构中向下获取一个对象。是否有任何直接索引方法可以使用键名或其他方式获取它们? 多次调用
正如标题所说,我的 .border div 的边框跨度比它里面的要宽。它只会在达到 710px 时发生,因此您需要在 this fiddle 中展开结果窗口。 . 我希望边框保持在其内容周围而不超过它
我在 MySQL 中有一个表,通过 Microsoft Access 2013 中的链接表(通过 ODBC) Access 。 此表包含超过 124,000 条记录,我需要一个表单中的 ComboBo
一旦上一个输入达到其最大长度值,我如何才能聚焦下一个输入? a: b: c: 如果用户粘贴的文本大于最大长度,理想情况下它应该溢出到下一个输入。 jsFiddle: http://jsfiddl
我的任务是在客户的 QA 服务器上提供服务器性能报告。理想情况下,客户希望对约 900 个并发用户进行负载测试,因为这是他们在高峰时段通常使用的数量。然而,我一直在做的负载测试正在使他们的 QA 服务
我在 django 应用程序中对我的 celery worker 运行任务,其中每个任务执行大约需要 1-2 秒。通常这些执行都很好,但有时,特别是如果 Django 应用程序已经部署了一段时间,我开
我有一个 one_for_one 主管来处理类似且完全独立的 child 。 当一个 child 出现问题时,反复崩溃并触发: =SUPERVISOR REPORT==== 30-Mar-2011::
根据该网站,他们在免费计划中限制了 100 个并发连接,但是当第 101 个连接尝试连接时,它被拒绝,那么什么时候允许新连接? 例如:用户是否必须等待一定时间或一旦一个连接关闭,另一个连接就有机会连接
我是一名优秀的程序员,十分优秀!