gpt4 book ai didi

python - 比较两列以在 Spark DataFrame 中创建新列

转载 作者:行者123 更新时间:2023-12-04 12:01:20 24 4
gpt4 key购买 nike

我有一个包含 2 列的 Spark DataFrame,我正在尝试使用其他两列和 when else 操作创建一个新列。

df_newcol = df.withColumn("Flag", when(col("a") <= lit(ratio1) | col("b") <= lit(ratio1), 1).otherwise(2))

但这会引发错误
ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions.

我之前在一个列中使用 when 和 else ,而在多列中使用它时,我们是否必须以不同的方式编写逻辑。

谢谢。

最佳答案

您有运算符优先级问题,当比较与逻辑运算符(例如 &)混合时,请确保将比较运算符放在括号中。和 | ,用它固定,你甚至不需要 lit ,标量也应该起作用:

import pyspark.sql.functions as F
df = spark.createDataFrame([[1, 2], [2, 3], [3, 4]], ['a', 'b'])

以下两项都应该有效:
df.withColumn('flag', F.when((F.col("a") <= F.lit(2)) | (F.col("b") <= F.lit(2)), 1).otherwise(2)).show()
+---+---+----+
| a| b|flag|
+---+---+----+
| 1| 2| 1|
| 2| 3| 1|
| 3| 4| 2|
+---+---+----+

df.withColumn('flag', F.when((F.col("a") <= 2) | (F.col("b") <= 2), 1).otherwise(2)).show()
+---+---+----+
| a| b|flag|
+---+---+----+
| 1| 2| 1|
| 2| 3| 1|
| 3| 4| 2|
+---+---+----+

关于python - 比较两列以在 Spark DataFrame 中创建新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48389438/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com