gpt4 book ai didi

python - 在基于 Spark Dataframe 的 API 中过滤多列

转载 作者:太空宇宙 更新时间:2023-11-04 04:57:32 24 4
gpt4 key购买 nike

我有一个像这样的数据框:

+--------+-------+--------------------+-------------------+
| id1| id2| body| created_at|
+--------+-------+--------------------+-------------------+
|1 | 4|....................|2017-10-01 00:00:05|
|2 | 3|....................|2017-10-01 00:00:05|
|3 | 2|....................|2017-10-01 00:00:05|
|4 | 1|....................|2017-10-01 00:00:05|
+--------+-------+--------------------+-------------------+

我想使用 id1id2 来过滤表格。例如,获取 id1=1, id2=4id1=2, id2=3 的行。

目前,我正在使用循环为 df.filter() 生成一个巨大的查询字符串,即 ((id1 = 1) and (id2 = 4)) 或 (( id1 = 2) 和 (id2 = 3))。只是想知道是否有更合适的方法来实现这一点?

最佳答案

您可以生成一个辅助 DF(表格):

时间:

+--------+-------+
| id1| id2|
+--------+-------+
|1 | 4|
|2 | 3|
+--------+-------+

然后加入他们:

SELECT a.*
FROM tab a
JOIN tmp b
ON (a.id1 = b.id1 and a.id2 = b.id2)

其中 tab 是您的原始 DF,已注册为表格

关于python - 在基于 Spark Dataframe 的 API 中过滤多列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46719860/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com