gpt4 book ai didi

scala - 在 spark 中遍历每一列并找到最大长度

转载 作者:行者123 更新时间:2023-12-05 08:18:41 27 4
gpt4 key购买 nike

我是 spark scala 的新手,我遇到以下情况我在集群上有一个表“TEST_TABLE”(可以是配置单元表)我正在将其转换为数据框作为:

scala> val testDF = spark.sql("select * from TEST_TABLE limit 10")

现在DF可以看作

scala> testDF.show()

COL1|COL2|COL3
----------------
abc|abcd|abcdef
a|BCBDFG|qddfde
MN|1234B678|sd

我想要如下的输出

COLUMN_NAME|MAX_LENGTH
COL1|3
COL2|8
COL3|6

在 spark scala 中这样做是否可行?

最佳答案

简单明了:

import org.apache.spark.sql.functions._

val df = spark.table("TEST_TABLE")
df.select(df.columns.map(c => max(length(col(c)))): _*)

关于scala - 在 spark 中遍历每一列并找到最大长度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54263293/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com