gpt4 book ai didi

python-3.x - 如何将整个 pyspark 数据框的大小写更改为较低或较高

转载 作者:行者123 更新时间:2023-12-03 23:42:47 25 4
gpt4 key购买 nike

我正在尝试对两个数据帧中的每一行应用 pyspark sql 函数哈希算法来识别差异。哈希算法区分大小写。即如果列包含 'APPLE' 和 'Apple' 被视为两个不同的值,所以我想将两个数据帧的大小写更改为上限或下限。我只能实现数据帧标题,但不能实现数据帧值。请帮忙

#Code for Dataframe column headers
self.df_db1 =self.df_db1.toDF(*[c.lower() for c in self.df_db1.columns])

最佳答案

假设 df是您的数据框,这应该可以完成以下工作:

from pyspark.sql import functions as F
for col in df.columns:
df = df.withColumn(col, F.lower(F.col(col)))

关于python-3.x - 如何将整个 pyspark 数据框的大小写更改为较低或较高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48564337/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com