python - 如何在 PySpark 中将行值(时间序列)转置为列值？-6ren

python - 如何在 PySpark 中将行值(时间序列)转置为列值？

转载作者：太空宇宙更新时间：2023-11-03 20:49:04

26

4

我有一个 Spark DataFrame，我想将其行值转换为单列。它是时间数据(列=小时)。 (示例见下文)。

到目前为止，DataFrame 看起来像这样:

>>> newdf.show(2)
+----------+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+------+------+------+------+------+------+------+------+------+-------+------+------+------+
|Date      |temp0|temp1|temp2|temp3|temp4|temp5|temp6|temp7|temp8|temp9|temp10|temp11|temp12|temp13|temp14|temp15|temp16|temp17|temp18|temp19|temp20 |temp21|temp22|temp23|
+----------+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+------+------+------+------+------+------+------+------+------+-------+------+------+------+
|2012-01-07|25   |29   |15   |null |null |null |4    |39   |128  |65   |3     |3     |7     |1     |4     |1     |4     |3     |4     |6     |1      |3     |1     |2     |
|2012-01-08|16   |15   |8    |null |null |null |4    |39   |128  |65   |3     |3     |7     |1     |4     |1     |4     |3     |4     |6     |1      |3     |1     |2     |
+----------+-----+-----+-----+-----+-----+-----+-----+-----+-----+-----+------+------+------+------+------+------+------+------+------+------+-------+------+------+------+

目标数据框应如下所示:

+---------------------+-------------+
| Date                | temperature |
+---------------------+-------------+
| 2012-01-07 00:00:00 | 25          |
| 2012-01-07 01:00:00 | 29          |
| 2012-01-07 02:00:00 | 15          |
| 2012-01-07 03:00:00 | null        |
| ....                | ....        |
| 2012-01-08 00:00:00 | 16          |
| 2012-01-08 01:00:00 | 15          |
+---------------------+-------------+

这可以用 PySpark 实现吗？我已经测试了pivot函数，但它无法给我我想要的结构。每行应对应一小时。

还有哪些其他的转置可能性？

最佳答案

第 1 步:创建数据框，

import pyspark.sql.functions as F

df = sql.createDataFrame([
('2012-01-07',25   ,29   ,15   ,7 ,7 ,7 ,4    ,39   ,128  ,65   ,3     ,3     ,7     ,1     ,4     ,1     ,4     ,3     ,4     ,6     ,1      ,3     ,1     ,2     ),\
('2012-01-08',16   ,15   ,8    ,7 ,7 ,7 ,4    ,39   ,128  ,65   ,3     ,3     ,7     ,1     ,4     ,1     ,4     ,3     ,4     ,6     ,1      ,3     ,1     ,2     ),\
],[
'Date','temp0','temp1','temp2','temp3','temp4','temp5','temp6','temp7','temp8','temp9','temp10','temp11','temp12','temp13','temp14','temp15','temp16','temp17','temp18','temp19','temp20' ,'temp21','temp22','temp23'
])

第 2 步:分解列并合并以创建时间戳

def _combine(x,y):
    d = str(x) + ' {}:00:00'.format(y)
    return d

combine = F.udf(lambda x,y: _combine(x,y))

cols, dtypes = zip(*((c, t) for (c, t) in df.dtypes if c not in ['Date']))

kvs = F.explode(F.array([
      F.struct(F.lit(c).alias("key"), F.col(c).alias("val")) for c in cols])).alias("kvs")

df = df.select(['Date'] + [kvs])\
       .select(['Date'] + ["kvs.key", F.col("kvs.val").alias('temperature')])\
       .withColumn('key', F.regexp_replace('key', 'temp', ''))\
       .withColumn('Date', combine('Date','key').cast('timestamp'))\
       .drop('key')
df.show()

这给出的输出为，

+-------------------+-----------+
|               Date|temperature|
+-------------------+-----------+
|2012-01-07 00:00:00|         25|
|2012-01-07 01:00:00|         29|
|2012-01-07 02:00:00|         15|
|2012-01-07 03:00:00|          7|
|2012-01-07 04:00:00|          7|
|2012-01-07 05:00:00|          7|
|2012-01-07 06:00:00|          4|
|2012-01-07 07:00:00|         39|
|2012-01-07 08:00:00|        128|
|2012-01-07 09:00:00|         65|
|2012-01-07 10:00:00|          3|
|2012-01-07 11:00:00|          3|
|2012-01-07 12:00:00|          7|
|2012-01-07 13:00:00|          1|
|2012-01-07 14:00:00|          4|
|2012-01-07 15:00:00|          1|
|2012-01-07 16:00:00|          4|
|2012-01-07 17:00:00|          3|
|2012-01-07 18:00:00|          4|
|2012-01-07 19:00:00|          6|
|2012-01-07 20:00:00|          1|
|2012-01-07 21:00:00|          3|
|2012-01-07 22:00:00|          1|
|2012-01-07 23:00:00|          2|
|2012-01-08 00:00:00|         16|
|2012-01-08 01:00:00|         15|
|2012-01-08 02:00:00|          8|
|2012-01-08 03:00:00|          7|
|2012-01-08 04:00:00|          7|
|2012-01-08 05:00:00|          7|
|2012-01-08 06:00:00|          4|
|2012-01-08 07:00:00|         39|
|2012-01-08 08:00:00|        128|
|2012-01-08 09:00:00|         65|
|2012-01-08 10:00:00|          3|
|2012-01-08 11:00:00|          3|
|2012-01-08 12:00:00|          7|
|2012-01-08 13:00:00|          1|
|2012-01-08 14:00:00|          4|
|2012-01-08 15:00:00|          1|
|2012-01-08 16:00:00|          4|
|2012-01-08 17:00:00|          3|
|2012-01-08 18:00:00|          4|
|2012-01-08 19:00:00|          6|
|2012-01-08 20:00:00|          1|
|2012-01-08 21:00:00|          3|
|2012-01-08 22:00:00|          1|
|2012-01-08 23:00:00|          2|
+-------------------+-----------+

编辑:如果有两列，

cols_1, dtypes = zip(*((c, t) for (c, t) in df.dtypes if 'temp' in c))
cols_2, dtypes = zip(*((c, t) for (c, t) in df.dtypes if 'wind' in c))

kvs = F.explode(F.array([
      F.struct(F.lit(c1).alias("key1"), F.col(c1).alias("val1"), F.lit(c2).alias("key2"), F.col(c2).alias("val2"))\
                         for c1,c2 in zip(cols_1,cols_2)\
                        ] )).alias("kvs")
df = df.select(['Date'] + [kvs]).select(['Date'] + ["kvs.key1", F.col("kvs.val1").alias('temperature'),
                                                    "kvs.key2", F.col("kvs.val2").alias("wind")])

关于python - 如何在 PySpark 中将行值(时间序列)转置为列值？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56386249/

26

4

0

文章推荐： html - 调整浏览器大小时网站布局困惑

文章推荐： python-3.x - 使用 OpenCV 访问网络摄像机

pyspark - 我想将数据框中的一列月份数字更改为月份名称(pyspark)
我在数据框中有一列月份数字，想将其更改为月份名称，所以我使用了这个: df['monthName'] = df['monthNumber'].apply(lambda x: calendar.mont
pyspark - pyspark 的控制台输入
Pyspark 中是否有一个 input() 函数，我可以通过它获取控制台输入。如果是，请详细说明一下。如何在 PySpark 中编写以下代码: directory_change = input("
pyspark - pyspark 中的数据类型验证
我们正在 pyspark 中构建数据摄取框架，并想知道处理数据类型异常的最佳方法是什么。基本上，我们希望有一个拒绝表来捕获所有未与架构确认的数据。 stringDf = sparkSession.cr
pyspark - pyspark 数据帧中数组的访问字段
我正在开发基于一组 ORC 文件的 spark 数据框的 sql 查询。程序是这样的: from pyspark.sql import SparkSession spark_session = Spa
pyspark - Pyspark 数据框中的填充
我有一个 Pyspark 数据框( 原始数据框 )具有以下数据(所有列都有字符串数据类型): id Value 1 103 2
pyspark - Pyspark + Redis远程服务器
我有一台配置了Redis和Maven的服务器然后我执行以下sparkSession spark = pyspark .sql .SparkSession .builder .master('loca
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - 将大型数组列拆分为多个列 - Pyspark
我有: +---+-------+-------+ | id| var1| var2| +---+-------+-------+ | a|[1,2,3]|[1,2,3]| | b|[2,
pyspark - pyspark 数据框的区分大小写的列删除操作？
从一些简短的测试来看，pyspark 数据帧的列删除功能似乎不区分大小写，例如。 from pyspark.sql import SparkSession from pyspark.sql.funct
pyspark - Pyspark 列的十分位数或其他分位数排名
我有一个带有多个数字列的 pyspark DF，我想为每一列根据每个变量计算该行的十分位数或其他分位数等级。这对 Pandas 来说很简单，因为我们可以使用 qcut 函数为每个变量创建一个新列，如
pyspark - pyspark.mllib 中 LabeledPoint 的类型转换错误，用于在 pyspark.ml 中使用线性回归模型
我有以下使用 pyspark.ml 包进行线性回归的代码。但是，当模型适合时，我在最后一行收到此错误消息: IllegalArgumentException: u'requirement failed
pyspark - 使用 PySpark 读取不带引号的多行字符串平面文件
我有一个由 | 分隔的平面文件(管道)，没有引号字符。示例数据如下所示: SOME_NUMBER|SOME_MULTILINE_STRING|SOME_STRING 23|multiline text
pyspark - 展平 PySpark 数组中的嵌套结构
给定如下模式: root |-- first_name: string |-- last_name: string |-- degrees: array | |-- element: struc
pyspark - 如何在数据帧的开头移动 pyspark 数据帧的特定列
我有一个 pyspark 数据框如下(这只是一个简化的例子，我的实际数据框有数百列): col1,col2,......,col_with_fix_header 1,2,.......,3 4,5,.
pyspark - 使用 pyspark 将特定单词删除到数据框中
我有一个数据框 +------+--------------------+-----------------+---- | id| titulo |tipo | formac
pyspark - 计数数组包含 PySpark 中每个类别的字符串的次数
我从 Spark 数组“df_spark”开始: from pyspark.sql import SparkSession import pandas as pd import numpy as np
pyspark - 在 Pyspark 中删除行
如何根据行号/行索引值删除 Pyspark 中的行值？我是 Pyspark(和编码)的新手——我尝试编码一些东西，但它不起作用。最佳答案您不能删除特定的列，但您可以使用 filter 或其别名
pyspark - 计算从列表 pyspark 引用的列的乘积
我有一个循环生成多个因子表的输出并将列名存储在列表中: | id | f_1a | f_2a | |:---|:----:|:-----| |1 |1.2 |0.95 | |2 |0.7
pyspark - 在 pyspark 中的案例总和
我正在尝试将 hql 脚本转换为 pyspark。我正在努力如何在 groupby 子句之后的聚合中实现 case when 语句的总和。例如。 dataframe1 = dataframe0.gro
pyspark - 获取数组 Pyspark 中的第一个元素
我想添加新的 2 列值服务 arr 第一个和第二个值但我收到错误: Field name should be String Literal, but it's 0; production_targe

首页

博学

6Ren·AI

商城

python - 如何在 PySpark 中将行值(时间序列)转置为列值？