pyspark - 如何在pyspark数据帧(时间序列)中计算每日基础-6ren

pyspark - 如何在pyspark数据帧(时间序列)中计算每日基础

转载作者：行者123 更新时间：2023-12-04 08:49:52

所以我有一个数据框，我想计算一些数量，让我们说每天..假设我们有 10 列 col1,col2,col3,col4... coln，其中每一列都依赖于值 col1 , col2, col3 , col4.. 等等，日期根据 id 重置..

    +--------+----+----              +----+
        date |col1|id  |col2|.    .  |coln
    +--------+----+----              +----+
    2020-08-01| 0|  M1 |   .    .   .    3|
    2020-08-02| 4|  M1 |                10|
    2020-08-03| 3|  M1 |   .     .   .  9 |
    2020-08-04| 2|  M1 |    .   .    .  8 |
    2020-08-05| 1|  M1 |   .   .     .  7 |
    2020-08-06| 0|  M1 |   .    .   .   0 |
    2020-08-01| 0|  M2 |   .   .     .  0 |
    2020-08-02| 0|  M2 |    .   .   . . 1 |
    2020-08-03| 0|  M2 |    .   .  . .  2 |
   +---------+----+----+-----------------+

假设我们执行此数据帧，此 df 中可能有更多列...
为了说明这一点，假设今天的日期是 2020-08-01。我们做了一些计算，我们在 coln 得到了一些输出，比如说 coln =3在 2020-08-01，我想在 2020-08-02 coln == col1，即 col1 ==3 并在 2020-08-02 进行计算等等......所以 df 的例子看起来像下面这个

    +--------+----+----              +----+
        date |col1|id  |col2|.    .  |coln
    +--------+----+----              +----+
    2020-08-01| 0|  M1 |   .    .   .    3|
    2020-08-02| 3|  M1 |                10|
    2020-08-03|10|  M1 |   .     .   .  9 |
    2020-08-04| 9|  M1 |    .   .    .  8 |
    2020-08-05| 8|  M1 |   .   .     .  7 |
    2020-08-06| 7|  M1 |   .    .   .   0 |
    2020-08-01| 0|  M2 |   .   .     .  1 |
    2020-08-02| 1|  M2 |    .   .   . . 2 |
    2020-08-03| 2|  M2 |    .   .  . .  0 |
   +---------+----+----+-----------------+

如果你们能给我一个例子来说明如何在 pyspark 中做到这一点，那就太好了。
例如:让我们说 col3 = col1+ col2最初，假设 col1 全为 0。

df1_schema = StructType([StructField("Date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             StructField("id", StringType(), True),\
                       StructField("col2", IntegerType(), True),\
                       StructField("col3", IntegerType(), True),\
                        StructField("coln", IntegerType(), True)])
df_data = [('2020-08-01',0,'M1',3,3,2),('2020-08-02',0,'M1',2,3,1),\
           ('2020-08-03',0,'M1',3,3,3),('2020-08-04',0,'M1',3,3,1),\
            ('2020-08-01',0,'M2',1,3,1),('2020-08-02',0,'M2',-1,3,2)]
rdd = sc.parallelize(df_data)
df1 = sqlContext.createDataFrame(df_data, df1_schema)
df1 = df1.withColumn("Date",to_date("Date", 'yyyy-MM-dd'))
df1.show()

+----------+----+---+----+----+----+
|      Date|col1| id|col2|col3|coln|
+----------+----+---+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|
|2020-08-02|   0| M1|   2|   3|   1|
|2020-08-03|   0| M1|   3|   3|   3|
|2020-08-04|   0| M1|   3|   3|   1|
|2020-08-01|   0| M2|   1|   3|   1|
|2020-08-02|   0| M2|  -1|   3|   2|
+----------+----+---+----+----+----+

所以让我们关注 2020-08-01这是开始，我们想要的是 col1+col2，即 3 = col3。在依赖于 col3..col4...col5.. 的第 n 次计算之后，假设我们得到了一些数字 coln=3。在计算完成后，我们想要在 2020-08-02 , coln=3 应该在 col1
所以它是在 2020-08-01 计算完成后动态变化的

所以我想要的 df 看起来像这样

+----------+----+---+----+----+----+
|      Date|col1| id|col2|col3|coln|
+----------+----+---+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|
|2020-08-02|   2| M1|   2|   5|   1|
|2020-08-03|   1| M1|   3|   4|   3|
|2020-08-04|   3| M1|   3|   6|   1|
|2020-08-01|   1| M2|   1|   4|   1|
|2020-08-02|   1| M2|  -1|   0|   2|
+----------+----+---+----+----+----+

编辑 2:

df1_schema = StructType([StructField("Date", StringType(), True),\
                              StructField("col1", IntegerType(), True),\
                             StructField("id", StringType(), True),\
                       StructField("col2", IntegerType(), True),\
                       StructField("col3", IntegerType(), True),\
                       StructField("col4", IntegerType(), True),\
                        StructField("coln", IntegerType(), True)])
df_data = [('2020-08-01',0,'M1',3,3,2,2),('2020-08-02',0,'M1',2,3,0,1),\
           ('2020-08-03',0,'M1',3,3,2,3),('2020-08-04',0,'M1',3,3,2,1),\
            ('2020-08-01',0,'M2',1,3,3,1),('2020-08-02',0,'M2',-1,3,1,2)]
rdd = sc.parallelize(df_data)
df1 = sqlContext.createDataFrame(df_data, df1_schema)
df1 = df1.withColumn("Date",to_date("Date", 'yyyy-MM-dd'))
df1.show()
+----------+----+---+----+----+----+----+
|      Date|col1| id|col2|col3|col4|coln|
+----------+----+---+----+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|   2|
|2020-08-02|   0| M1|   2|   3|   0|   1|
|2020-08-03|   0| M1|   3|   3|   2|   3|
|2020-08-04|   0| M1|   3|   3|   2|   1|
|2020-08-01|   0| M2|   1|   3|   3|   1|
|2020-08-02|   0| M2|  -1|   3|   1|   2|
+----------+----+---+----+----+----+----+

所以让我们说 coln = col4 - col2 然后

+----------+----+---+----+----+----+----+
|      Date|col1| id|col2|col3|col4|coln|
+----------+----+---+----+----+----+----+
|2020-08-01|   0| M1|   3|   3|   2|  -1|
|2020-08-02|  -1| M1|   2|   1|   0|  -2|
|2020-08-03|  -2| M1|   3|   1|   2|  -1|
|2020-08-04|  -1| M1|   3|   2|   2|  -1|
|2020-08-01|   0| M2|   1|   1|   3|   2|
|2020-08-02|   2| M2|  -1|   1|   1|   2|
+----------+----+---+----+----+----+----+

最佳答案

这是您可以使用 SparkSQL 内置函数处理的一类问题 aggregate (需要 Spark 2.4+ )，下面概述了基本思想:

from pyspark.sql.functions import sort_array, collect_list, struct, to_date

cols = ['Date', 'col1', 'col2', 'col3', 'coln']

df_new = df1.groupby('id') \
    .agg(sort_array(collect_list(struct(*cols))).alias('dta')) \
    .selectExpr("id", """  
      inline( 
        aggregate( 
          /* expr: iterate through the array `dta` from the 2nd to the last items*/
          slice(dta,2,size(dta)-1), 
          /* start: AKA. the zero value which is an array of structs 
           * with a single element dta[0]
           */
          array(dta[0]), 
          /* merge: do the calculations */
          (acc, x) ->   
            concat(acc, array(named_struct( 
              'Date', x.Date, 
              'col1', element_at(acc, -1).coln, 
              'col2', x.col2, 
              'col3', element_at(acc, -1).col3 + x.col2, 
              'coln', x.col3 - x.col2 
            )))  
         )    
       )    
   """)

输出:

df_new.show()
+---+----------+----+----+----+----+ 
| id|      Date|col1|col2|col3|coln|
+---+----------+----+----+----+----+
| M1|2020-08-01|   0|   3|   3|   2|
| M1|2020-08-02|   2|   2|   5|   1|
| M1|2020-08-03|   1|   3|   8|   0|
| M1|2020-08-04|   0|   3|  11|   0|
| M2|2020-08-01|   0|   1|   3|   1|
| M2|2020-08-02|   1|  -1|   2|   4|
+---+----------+----+----+----+----+

哪里:

我们分组相同的行 id并按 Date 对它们进行排序, 将生成的结构数组命名为 dta

在聚合函数中，我们初始化 acc带有结构数组 array(dta[0])然后遍历数组 dta使用 slice 从第二个项目到最后一个项目功能

在 merge聚合函数的一部分，可以使用x.col1 , x.coln等引用相同日期的值并使用 element_at(acc, -1).col1 , element_at(acc, -1).coln等以引用前一个日期的值。

在合并函数中，我们使用 concat(acc, array(...))将一个新元素附加到结构数组 acc

使用 inline用于分解上述结构数组的函数 acc

这个假设日期是连续的，如果缺少日期存在，您可以添加一些 IF 条件。例如计算col3以下:

IF(datediff(x.Date, element_at(acc, -1).Date) = 1, element_at(acc, -1).coln, 0) + x.col2

顺便提一句。我没有使用示例 coln = col4 - col2 , 使用 con3 = col3_prev + col2相反，我认为，这是一个更好的例子。

关于pyspark - 如何在pyspark数据帧(时间序列)中计算每日基础，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64144891/

文章推荐： javascript - 正则表达式中的这个字符 Á 有什么问题？

文章推荐： micronaut - 如何在 micronaut GET 请求中设置不需要的参数？

vue3快速入门系列——基础
vue3 快速入门系列 - 基础前面我们已经用 vue2 和 react 做过开发了。从 vue2 升级到 vue3 成本较大，特别是较大的项目。所以许多公司对旧项目继续使用vue2，新项目则
C# 基础
C# 基础 C#项目创建这里注意win10虚拟机需要更新下补丁，不然直接下载visual studio 2022会显示版本不支持 HelloWorld C#的类文件都是以.cs结尾，入口方法为sta
iPhone内存管理(基础)
关于 iPhone 内存管理的非常基本的问题: 假设我有一个 viewController，其中有几个 subview 也由 viewController 控制。当我删除顶部 viewControll
C指针处理(基础)
我仍在努力适应指针。不是概念——我理解内存位置、匹配可变长度的指针增量等——这是语法。这是一个我认为是我感到困惑/无法直观把握的原因之一: int a = 42; 在一个int大小的内存空间中分配并放
Kafka-基础
1. 简介 Kafka（Apache Kafka）是一种分布式流数据平台，最初由LinkedIn开发，并于后来捐赠给Apache软件基金会，成为了一个Apache顶级项目。它被设计用于处理大规
学习mysql之后的一点总结(基础)
1.想要在命令提示符下操作mysql服务器，添加系统变量。（计算机-系统属性——环境变量——path） 2.查询数据表中的数据； select selection_lis
MySQL数据库 ---MySQL表的增删改查(基础)
MySQL表的增删改查(基础) 1. CRUD 注释：在SQL中可以使用“–空格+描述”来表示注释说明 CRUD 即增加(Create)、查询(Retrieve)、更新(Update)、删除(Dele
javascript - 基础 - 在关闭另一个模式时打开一个模式
我有一个网页，可以在加载时打开显示模式，在这个模式中，我有一个可以打开第二个模式的链接。当第二个模式关闭时(通过单击关闭按钮或单击模式外部)，我想重新打开第一个模式。对于关闭按钮，我可以通过向具有
ios - 核心数据提取属性 - 基础
使用 Core Data Fetched Properties，我如何执行这个简单的请求: 我希望获取的属性 ( myFetchProp ) 存储 StoreA ，它应该这样做: [myFetchPr
ios - 核心基础vs基础或核心基础+基础
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
drupal - 开发Drupal网站的前端-基础
最近，我得到了一个现有的Drupal项目，并被要求改进前端(HTML，JavaScript，CSS)。我在Django，PHP，Ruby等方面具有大量的前端和后端开发经验，但是我没有任何Drupal经
Java 扫描器类 - 基础
我试图让我的用户通过使用扫描仪类来决定要做什么，但我有一个问题，代码一旦运行就不会激活，并且它不会让我跳过任何行。我的代码如下所示: Scanner input = new Scanner(S
Java [基础] 对象问题
对模糊的标题表示歉意，因为我想不出这个名字是什么。基本上创建一个计算学生财务付款的小程序。当我运行它时，它计算对象限额没有问题。然而，无论我尝试什么，对象“助学金”似乎除了 0 之外什么也没有提出。
C 基础 - 被调用的对象不是函数或函数指针
这是我的代码 - main() { double x; double y = pow(((1/3 + sin(x/2))(pow(x, 3) + 3)), 1/3); prin
javascript - 基础 - 变量引用
如果我的术语在这个问题上有误，我们深表歉意。采取以下功能: i = 1; v = i * 2; for (j = 0; j < 4; j++ ) { console.log(v);
Android 基础 - 不同的类文件
我的应用程序中有不同的类文件。我有 5 个类，其中 2 个是 Activity ，1 个是运行的服务。其他 2 个只是类。这两个类中变量的生命周期是多少。我知道一个 Activity 可以被操作系统杀
Java 基础 - 实现在哪里进行？
例如，一个方法返回一个 List 类型的对象。 public List bojangles () ... 一些代码调用方法FooBar.bojangles.iterator(); 我是 Java 的新
css - 网格问题 - 基础
我遇到了一个奇怪的问题，网格的大小不适合我的屏幕。当我使用 12 列大时，它只占据屏幕的 1/3 的中间，请参见图像。我不确定是什么导致了这个问题。我没有任何会导致这种情况发生的奇怪 CSS。我不会在
C++ 头文件(基础)
我尝试使用头文件和源文件，但遇到了问题。因此，我对我正在尝试做的事情做了一个简化版本，我在 CodeBlocks 中遇到了同样的错误(undefined reference to add(double
css - (基础)带有背景图像的网格单元格突破
我正在为我的网格系统使用基础，但这在任何网格系统中都可能是一个问题。我基本上用一个容器包裹了 3 个单元格，但其中一个单元格应该长到页面边框(留在我的 Sampe-Image 中)但这也可能在右侧)。

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

pyspark - 如何在pyspark数据帧(时间序列)中计算每日基础