gpt4 book ai didi

pyspark - 如何使用 dict 创建新的 DataFrame

转载 作者:行者123 更新时间:2023-12-04 16:25:35 26 4
gpt4 key购买 nike

我有一个 dict , 喜欢:

cMap = {"k1" : "v1", "k2" : "v1", "k3" : "v2", "k4" : "v2"}

和一个数据帧 A , 喜欢:
+---+
|key|
+----
| k1|
| k2|
| k3|
| k4|
+---+

使用代码创建上面的 DataFame:
data = [('k1'),
('k2'),
('k3'),
('k4')]
A = spark.createDataFrame(data, ['key'])

我想获得新的 DataFrame,例如:
+---+----------+----------+
|key| v1 | v2 |
+---+----------+----------+
| k1|true |false |
| k2|true |false |
| k3|false |true |
| k4|false |true |
+---+----------+----------+

我想得到一些建议,谢谢!

最佳答案

我只是想贡献一种不同的、可能更简单的方法来解决这个问题。

在我的代码中,我将 dict 转换为 pandas 数据框,我发现这要容易得多。然后我直接将pandas数据帧转换为spark。

data = {'visitor': ['foo', 'bar', 'jelmer'], 
'A': [0, 1, 0],
'B': [1, 0, 1],
'C': [1, 0, 0]}

df = pd.DataFrame(data)
ddf = spark.createDataFrame(df)

Output:
+---+---+---+-------+
| A| B| C|visitor|
+---+---+---+-------+
| 0| 1| 1| foo|
| 1| 0| 0| bar|
| 0| 1| 0| jelmer|
+---+---+---+-------+

关于pyspark - 如何使用 dict 创建新的 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43751509/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com