python - 带有指标 DataFrame 的累积和 pandas DataFrame

转载作者：行者123 更新时间：2023-11-30 22:33:18

26

4

我有一个 pandas DataFrame (df)，其中包含我想根据另一个具有相同列和索引的 pandas DataFrame (dfIdx) 中的信息进行求和的信息。特别是，如果 df 采用以下形式:

df = pd.DataFrame([[172770, 1442, 114581],[35464, 67062, 175285],[124399, 14294, 44104],[50608, 58802, 189253],[1000, 10000, 100000]],columns=['A','B','C'])

和以下形式的 dfIdx:

dfIdx = pd.DataFrame([[0, 0, 1], [0, 0, 0], [0, 1, 0], [1, 1, 0],[0,0,1]],columns=['A','B','C'])

我希望结果是 df 中位于 dfIdx 中且包含值为 1 的行之前的行的累积总和。所以结果应该是这样的:

       A      B       C
0      0      0  114581
1      0      0       0
2      0  82798       0
3 383241  58802       0
4      0      0  508642

对于额外的积分，我希望能够灵活地决定累积金额包含捐款的时间。例如，如果累积和的窗口为 1，那么我只想包含最多前一行，给出结果:

       A      B       C
0      0      0  114581
1      0      0       0
2      0  81356       0
3 175007  58802       0
4      0      0  289253

我意识到我给出的原始示例没有提供我想要的所有行为示例，因此，建议的解决方案不完整。我用另一行扩充了数据，以提供更多样化的行为。

最佳答案

编辑以满足新的要求和扩展的数据集

df_out = (df.apply(lambda x: x.groupby(dfIdx.loc[::-1,x.name].cumsum().replace(0,pd.np.nan).bfill())
                            .transform('cumsum')
                            .mul(dfIdx[x.name])))

输出:

        A      B       C
0       0      0  114581
1       0      0       0
2       0  82798       0
3  383241  58802       0
4       0      0  508642

额外学分更新:

n=1 #for summing 1 pervious value
df_out = (df.apply(lambda x: x.groupby(dfIdx.loc[::-1,x.name].cumsum().replace(0,pd.np.nan).bfill())
                              .rolling(n+1,min_periods=1).sum().reset_index(level=0,drop=True)
                              .mul(dfIdx[x.name])))

输出:

          A        B         C
0       0.0      0.0  114581.0
1       0.0      0.0       0.0
2       0.0  81356.0       0.0
3  175007.0  58802.0       0.0
4       0.0      0.0  289253.0

注意:使用反转，您的观察结果非常接近。我也在做同样的事情。这完全取决于您如何对 dfIdx 进行分组。

<小时/>

让我们尝试一下:

df_out = (df.apply(lambda x: x.groupby(dfIdx[x.name].cumsum().replace(0,pd.np.nan).bfill())
                            .transform('cumsum')
                            .mul(dfIdx[x.name])))

输出:

        A      B       C
0       0      0  114581
1       0      0       0
2       0  82798       0
3  383241  58802       0

对于“额外学分”，其中 n=1，我们使用滚动周期 2:

n=1 #for summing 1 pervious value
df_out = (df.apply(lambda x: x.groupby(dfIdx[x.name].cumsum().replace(0,pd.np.nan).bfill())
                              .rolling(n+1,min_periods=1).sum().reset_index(level=0,drop=True)
                              .mul(dfIdx[x.name])))

输出:

          A        B         C
0       0.0      0.0  114581.0
1       0.0      0.0       0.0
2       0.0  81356.0       0.0
3  175007.0  58802.0       0.0

如何？

第 1 步获取 dfIdx 中的分组:

df_group = dfIdx.cumsum()\
     .replace(0,pd.np.nan)\
     .bfill()

     A    B  C
0  1.0  1.0  1
1  1.0  1.0  1
2  1.0  1.0  1
3  1.0  2.0  1

第 2 步使用该分组对 df 进行“变换”或“滚动”。

df_out = df.apply(lambda x: x.groupby(df_group)                              
  .rolling(n+1,min_periods=1)
  .sum()
  .reset_index(level=0,drop=True))

          A        B         C
0  172770.0   1442.0  114581.0
1  208234.0  68504.0  289866.0
2  159863.0  81356.0  219389.0
3  175007.0  58802.0  233357.0

第3步让我们屏蔽或替换dfIdx中与0对齐的那些值，我们可以使用多个

df_out.mul(dfIdx)

          A        B         C
0       0.0      0.0  114581.0
1       0.0      0.0       0.0
2       0.0  81356.0       0.0
3  175007.0  58802.0       0.0

关于python - 带有指标 DataFrame 的累积和 pandas DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45191865/

26

4

0

文章推荐： c# - 单元测试和 session ？

文章推荐： mysql - 如何在没有连接的情况下使用自关联条件？

文章推荐： mysql - 将 java 类添加到 sbt 程序集

Azure SQL 指标
我在 Azure 中找不到几个 SQL 指标。任何人都可以帮助如何设置以下主题的指标。 1)产能利用率不足 2)池外的数据库数量 3)扩大规模 4)连接超时提前致谢。最佳答案实际上，这些并不是
普罗米修斯 json 指标
我要监控的应用程序提供了一个用于健康检查的 api 端点，它以 json 格式响应指标。例如: $ curl https://example.com/api/stats {"status":"suc
metrics - 测量软件配置代码的工作量/指标
我正在考虑用于分析软件开发工作的软件指标。当我考虑在面向对象的软件中使用类似功能点的指标时，我遇到了一个有趣的挑战/问题。考虑一个业务规则引擎。它是一种应用程序，由运行业务规则所需的组件组成，然后将
普罗米修斯 json 指标
我要监控的应用程序提供了一个用于健康检查的 api 端点，它以 json 格式响应指标。例如: $ curl https://example.com/api/stats {"status":"suc
Javascript Clusterfck 指标
因此，我正在将旧的数据可视化转换为新平台，但我对他们的社区排序功能有点困惑。在原始代码中，作者似乎使用了带有余弦相似度计算器的凝聚聚类。我认为在 Javascript 中解决这个问题的最佳方法是使用
algorithm - 如何操纵围绕中心值震荡的价格序列(指标)？
我不是专业程序员，但我正在尝试改变一些技术指标在名为 TradeStation 的金融图表包中的显示方式(与特定图表供应商无关)。这就是问题所在:大多数指标都是围绕零点绘制的，有时它们会靠近零点摆动
mysql - 指标/报告生成问题
我们存储了大量来 self 们服务的指标(大约 8000 万个事件)。我们必须根据数据生成报告。我的问题比较笼统，哪些工具可以满足您的指标/报告需求？有什么推荐的吗？我们使用 Apache 编写日
lighthouse - 受使用内容可见性属性影响的累积布局偏移 (CLS) 指标？
我们网站上的页面的 CLS 一直接近于零。这是有道理的，因为它们是服务器呈现的 HTML 页面，具有简单的静态布局。最近我们添加了 content-visibility: auto 的使用，如下所示
r - 在R中将因子矩阵转换为二进制(指标)矩阵的最有效方法
我能想到几种方法来转这种类型的矩阵(数据框): dat = data.frame( x1 = rep(c('a', 'b'), 100), x2 = rep(c('x', 'y
metrics - Dropwizard 指标 - 如何在报告间隔后重置计数器
我正在使用 codahale 指标(现在是 dropwizard 指标)来监控我系统中发生的一些“事件”。我正在使用 counters跟踪“事件”发生次数的指标。我检查了记者为我的计数器指标打印的值
continuous-integration - 持续集成投资返回率/指标
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 11 个月前关闭。 Improve this que
Kubernetes:如何获取节点的磁盘/cpu 指标
在不使用 Heapster 的情况下，有没有办法收集有关 Kubernetes 集群中节点的 CPU 或磁盘指标？ Heapster 最初是如何收集这些指标的？最佳答案 Kubernetes 监控在
xgboost 正确使用 auc 指标
对于二元分类问题，我有一个略微不平衡的数据集，正负比为 0.6。我最近从这个答案中了解到了 auc 指标:https://stats.stackexchange.com/a/132832/12822
python - 如何重置 Keras 指标？
为了做一些参数调整，我喜欢用 Keras 循环一些训练函数。但是，我意识到在使用 tensorflow.keras.metrics.AUC() 时作为度量，对于每个训练循环，都会将一个整数添加到 au
c# - 如何通过短信通知添加自定义 Azure 指标？
我使用 Azure，现在我想在特定情况下添加短信通知。当我使用基于日志的指标时，它效果很好，但我想针对特定异常创建通知。下一个流程:抛出异常 => Azure 知道识别它 => Azure 发送有
azure - 访问 Azure 指标
我正在尝试访问给定cloudService的指标我有以下代码: var metricsClient = new MetricsClient(new CertificateCloudCredentia
R 指标 RMSE 不适用于分类模型
我正在尝试使用 R 和 xgboost 来研究我的模型。训练模型总体上效果很好，但对于插入符来说，度量存在一些问题。我尝试为类列设置一个因子，但仍然没有结果。我的数据 ID var1var2TA
swift - 作为全局属性的 Activity 指标
我对编程还很陌生，有时它会用非常基本的概念来困扰我。我在我的 tableviewcontroller 中定义了一个 Activity 指示器作为 Outlet。 @IBOutlet weak var
tensorflow - 如何使用功能来评估不用于训练模型的自定义 TensorFlow 指标
我正在训练一个进行序列预测的模型。例如，给定某人之前写过的 10 个单词，我正在训练 LSTM 来预测他们将写的下一个单词。我有一个有时可以工作的模型，因此我想创建一个指标来跟踪模型通过词性标签预测下
java - 为什么我没有获得 hystrix 指标？
我正在尝试使用 hystrix 来监控某个网络调用。但我尝试监控的所有指标始终为空。我做错了什么？我通过实现一个(某种程度上)RESTful 接口(interface)来模拟网络调用，该接口(int

首页

博学

6Ren·AI

商城

python - 带有指标 DataFrame 的累积和 pandas DataFrame

编辑以满足新的要求和扩展的数据集

如何？