gpt4 book ai didi

apache-spark - 在2个Spark数据框列之间使用“IS IN”

转载 作者:行者123 更新时间:2023-12-04 04:47:27 25 4
gpt4 key购买 nike

我有上面的数据框:

from pyspark.sql.types import *

rdd = sc.parallelize([
('ALT', ['chien', 'chat'] , 'oiseau'),
('ALT', ['oiseau'] , 'oiseau'),
('TDR', ['poule','poulet'], 'poule' ),
('ALT', ['ours'] , 'chien' ),
('ALT', ['paon'] , 'tigre' ),
('TDR', ['tigre','lion'] , 'lion' ),
('ALT', ['chat'] ,'chien' ),
])
schema = StructType([StructField("ClientId",StringType(),True),
StructField("Animaux",ArrayType(StringType(),True),True),
StructField("Animal",StringType(),True),])
test = rdd.toDF(schema)
test.show()


+--------+---------------+------+
|ClientId| Animaux|Animal|
+--------+---------------+------+
| ALT| [chien, chat]|oiseau|
| ALT| [oiseau]|oiseau|
| TDR|[poule, poulet]| poule|
| ALT| [ours]| chien|
| ALT| [paon]| tigre|
| TDR| [tigre, lion]| lion|
| ALT| [chat]| chien|
+--------+---------------+------+


我想创建一个新列,如果“ Animal”列中的字符串在“ Animaux”列中的列表中,则取值为“ 1”,否则为“ 0”。

我试过了:

test2=test.withColumn("isinlist", F.when("Animal in Animaux", 'ok').otherwise('pas ok'))
test2=test.withColumn("isinlist", F.when(test.Animal.isin(*test.Animaux), 'ok').otherwise('pas ok'))
test.where("Animal in (Animaux)").show()
test.where("Animal in Animaux").show()
test2=test.withColumn("isinlist", F.when(test.Animal.isin(test.Animaux), 'ok').otherwise('pas ok'))


但是它们都不起作用...
有谁知道不使用udf怎么做...有直接的方法吗?

最佳答案

您可以使用array_contains



from pyspark.sql.functions import expr

test.withColumn("isinlist", expr("array_contains(Animaux, Animal)")).show()
# +--------+---------------+------+--------+
# |ClientId| Animaux|Animal|isinlist|
# +--------+---------------+------+--------+
# | ALT| [chien, chat]|oiseau| false|
# | ALT| [oiseau]|oiseau| true|
# | TDR|[poule, poulet]| poule| true|
# | ALT| [ours]| chien| false|
# | ALT| [paon]| tigre| false|
# | TDR| [tigre, lion]| lion| true|
# | ALT| [chat]| chien| false|
# +--------+---------------+------+--------+


来源 How to filter Spark dataframe if one column is a member of another columnzero323(Scala)。

关于apache-spark - 在2个Spark数据框列之间使用“IS IN”,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48488463/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com