gpt4 book ai didi

apache-spark - 过滤数组列内容

转载 作者:行者123 更新时间:2023-12-04 11:43:03 24 4
gpt4 key购买 nike

我正在使用 pyspark 2.3.1 并且想使用表达式而不是使用 udf 过滤数组元素:

>>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"])
>>> df.show()
+----+----+---------------+
|col1|col2| col3|
+----+----+---------------+
| 1| A| [1, 2, 3, 4]|
| 2| B|[1, 2, 3, 4, 5]|
+----+----+---------------+

下面显示的表达式是错误的,我想知道如何告诉 spark 从 col3 中的数组中删除任何小于 3 的值。我想要类似的东西:
>>> filtered = df.withColumn("newcol", expr("filter(col3, x -> x >= 3)")).show()
>>> filtered.show()
+----+----+---------+
|col1|col2| newcol|
+----+----+---------+
| 1| A| [3, 4]|
| 2| B|[3, 4, 5]|
+----+----+---------+

我已经有一个 udf 解决方案,但速度很慢(> 10 亿数据行):
largerThan = F.udf(lambda row,max: [x for x in row if x >= max], ArrayType(IntegerType()))
df = df.withColumn('newcol', size(largerThan(df.queries, lit(3))))

欢迎任何帮助。非常感谢您提前。

最佳答案

Spark < 2.4
udf没有*合理的替代品在 PySpark 中。

Spark >= 2.4

您的代码:

expr("filter(col3, x -> x >= 3)")

可以按原样使用。

引用

Querying Spark SQL DataFrame with complex types



* 考虑到 RDD 的爆炸或转换成本 udf几乎是唯一可取的。

关于apache-spark - 过滤数组列内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53193144/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com