gpt4 book ai didi

python - PySpark:如何检查数据框中是否存在字符串值列表并将值打印到列表中

转载 作者:行者123 更新时间:2023-12-01 09:10:55 27 4
gpt4 key购买 nike

我有一个 df NAMES,如果我通过 display(NAMES) 输出:

NAMES

John

Sarah

Michael

Sean

我还有一个列表学生打印(学生):

{约翰、艾伦、安迪}

问题:

基于此列表(学生),我如何使用“NAMES”列循环遍历 df,并将列表中以及 DF 中的学生姓名输出到另一个列表。

列表的预期输出:“John”

我已经尝试过

list2 = []
for i in NAMES:
for g in students:
if i == g:
list2.append(i)

但是我最终遇到了错误,我如何通过 pyspark 实现这个?

谢谢。

最佳答案

一般来说,在pyspark中循环数据不会非常有效。如果可能,请使用 native pyspark 函数。对于您的具体问题,您可以使用 filter 函数,该函数将按学生列表中的姓名过滤您的 DataFrame:

df_names.filter(col("name").isin(students)).select("name")

在您的示例中,唯一的返回值是 John。

关于python - PySpark:如何检查数据框中是否存在字符串值列表并将值打印到列表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51658925/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com