gpt4 book ai didi

apache-spark - 如何删除pyspark数据框中的列

转载 作者:行者123 更新时间:2023-12-02 19:41:55 24 4
gpt4 key购买 nike

>>> a
DataFrame[id: bigint, julian_date: string, user_id: bigint]
>>> b
DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]
>>> a.join(b, a.id==b.id, 'outer')
DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint]

有两个id: bigint,我想删除一个。我该怎么办?

最佳答案

阅读 Spark 文档我发现了一个更简单的解决方案。

从 Spark 1.4 版本开始,有一个函数 drop(col) 可以在 pyspark 中的数据帧上使用。

您可以通过两种方式使用它

  1. df.drop('年龄')
  2. df.drop(df.age)

Pyspark Documentation - Drop

关于apache-spark - 如何删除pyspark数据框中的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29600673/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com