gpt4 book ai didi

要列出的 Pyspark 数据框列

转载 作者:行者123 更新时间:2023-12-03 21:16:17 25 4
gpt4 key购买 nike

我正在尝试将数据框中的列值列表提取到列表中

+------+----------+------------+
|sno_id|updt_dt |process_flag|
+------+----------+------------+
| 123 |01-01-2020| Y |
+------+----------+------------+
| 234 |01-01-2020| Y |
+------+----------+------------+
| 512 |01-01-2020| Y |
+------+----------+------------+
| 111 |01-01-2020| Y |
+------+----------+------------+

输出应该是 sno_id ['123','234','512','111'] 的列表
然后我需要迭代列表以对每个列表值运行一些逻辑。我目前正在使用 HiveWarehouseSession 通过使用 hive.executeQuery(query) 从 hive 表中获取数据到 Dataframe

感谢你的帮助。

最佳答案

这很容易,因为您可以先收集 df 并返回行类型列表然后

row_list = df.select('sno_id').collect()

然后您可以迭代行类型以将列转换为列表
sno_id_array = [ row.sno_id for row in row_list]

sno_id_array
['123','234','512','111']

使用平面 map 和更优化的解决方案
sno_id_array = df.select("sno_id ").rdd.flatMap(lambda x: x).collect()

关于要列出的 Pyspark 数据框列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60402121/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com