gpt4 book ai didi

python - 计算数据框中的连续数并获取发生这种情况的索引

转载 作者:行者123 更新时间:2023-11-28 17:16:10 28 4
gpt4 key购买 nike

我有一个带有整数列名的 pandas.DataFrame,其中有 0 和 1。输入示例:

    12  13  14  15
1 0 0 1 0
2 0 0 1 1
3 1 0 0 1
4 1 1 0 1
5 1 1 1 0
6 0 0 1 0
7 0 0 1 1
8 1 1 0 1
9 0 0 1 1
10 0 0 1 1
11 1 1 0 1
12 1 1 1 1
13 1 1 1 1
14 1 0 1 1
15 0 0 1 1

我需要计算所有长度/总和 >=2 的连续项,遍历列并返回出现连续项数组的索引(开始、结束)。

首选输出是 3D DataFrame,其中子列“count”和“indices”引用输入中的整数列名称。

示例输出如下所示:

12              13              14              15
count indices count indices count indices count indices
3 (3,5) 2 (4,5) 2 (1,2) 3 (2,4)
4 (11,14) 3 (11,13) 3 (5,7) 9 (7,15)
2 (9,10)
4 (12,15)

我想它应该用 itertools.groupby 来解决,但仍然无法弄清楚如何将它应用于这样的问题,其中 groupby 结果及其索引正在提取。

最佳答案

这是计算所需运行长度的一种方法:

代码:

def min_run_length(series):
terminal = pd.Series([0])
diffs = pd.concat([terminal, series, terminal]).diff()
starts = np.where(diffs == 1)
ends = np.where(diffs == -1)
return [(e-s, (s, e-1)) for s, e in zip(starts[0], ends[0])
if e - s >= 2]

测试代码:

df = pd.read_fwf(StringIO(u"""
12 13 14 15
0 0 1 0
0 0 1 1
1 0 0 1
1 1 0 1
1 1 1 0
0 0 1 0
0 0 1 1
1 1 0 1
0 0 1 1
0 0 1 1
1 1 0 1
1 1 1 1
1 1 1 1
1 0 1 1
0 0 1 1"""), header=1)
print(df.dtypes)

indices = {cname: min_run_length(df[cname]) for cname in df.columns}
print(indices)

结果:

{
u'12': [(3, (3, 5)), (4, (11, 14))],
u'13': [(2, (4, 5)), (3, (11, 13))],
u'14': [(2, (1, 2)), (3, (5, 7)), (2, (9, 10)), (4, (12, 15))]
u'15': [(3, (2, 4)), (9, (7, 15))],
}

关于python - 计算数据框中的连续数并获取发生这种情况的索引,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43986045/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com