gpt4 book ai didi

apache-spark - 修改 ArrayType 中的所有元素

转载 作者:行者123 更新时间:2023-12-05 08:39:53 27 4
gpt4 key购买 nike

<分区>

我有一个包含 ArrayType(StringType) 列的 DataFrame:

+------------------------------------+
|colname |
+------------------------------------+
|[foo_XX_foo, bar_YY_bar] |
|[qwe_ZZ_rty, asd_AA_fgh, zxc_BB_vbn]|
+------------------------------------+

我现在想提取第一个和第二个 _ 之间的字符串,即预期输出是:

+------------+
|newcolname |
+------------+
|[XX, YY] |
|[ZZ, AA, BB]|
+------------+

正在关注 this answer ,我尝试将 expr()transform 一起使用,但我没能成功。即使是将所有字符串更改为大写的示例,如上面引用的答案,对我也不起作用,我收到以下错误:

pyspark.sql.utils.ParseException: u"\nextraneous input '>' expecting {'(', 'SELECT', ...

如何修改 ArrayType 中的所有元素?我想避免使用 udf

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com