gpt4 book ai didi

python - 查找值位于 PySpark Dataframe 中特定列之间的所有列的列表

转载 作者:行者123 更新时间:2023-12-01 00:03:42 25 4
gpt4 key购买 nike

我有 Spark DF,它由 20 列组成,我想从中查找哪个列的值落在 HighLow 列值之间。

Time,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,High,Low
09:16,930.9476296,927.4296671,924.1894385,923.2636589,921.6898335,920.578898,919.4679625,918.171871,915.95,913.728129,912.4320375,911.321102,910.2101665,908.6363411,907.7105615,904.4703329,900.9523704,919.95,917.65

我尝试了以下命令,但出现错误:

joineddata.withColumn('RR', map(lambda x: [x], ((F.col(x) >= (F.col('Low')) & (F.col(x) <= (F.col('High')) for x in joineddata.columns[1:18]))))).show()

错误:

TypeError: Column is not iterable

期望的结果:

我想要一个新列,它是值介于 HighLow 列之间的列名称列表。

Time,8,7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,-6,-7,-8,High,Low,RR
09:16,930.9476296,927.4296671,924.1894385,923.2636589,921.6898335,920.578898,919.4679625,918.171871,915.95,913.728129,912.4320375,911.321102,910.2101665,908.6363411,907.7105615,904.4703329,900.9523704,919.95,917.65,[2,1]

最佳答案

只需使用 when 收集数组中的列名称和 between检查列是否满足条件,然后过滤结果数组以删除空值(不满足条件的列):

df = joineddata.withColumn('RR', array(*[when(col(c).between(col('Low'), col("High")), lit(c)) for c in df.columns[1:18]]))\
.withColumn('RR', expr("filter(RR, x -> x is not null)"))

df.select("Time", "RR").show()

#+-----+------+
#| Time| RR|
#+-----+------+
#|09:16|[2, 1]|
#+-----+------+

请注意,在第二步中 filter使用的函数仅在 Spark 2.4+ 中可用。对于旧版本,您可以使用UDF。

关于python - 查找值位于 PySpark Dataframe 中特定列之间的所有列的列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60134356/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com