gpt4 book ai didi

python - 在 PySpark 中,使用 regexp_replace,如何用另一列的值替换一个组?

转载 作者:行者123 更新时间:2023-12-02 19:09:02 24 4
gpt4 key购买 nike

<分区>

我有一个包含两列的数据框:filenameyear。我想用 year 列中的值替换 filename 中的年份值

下表中的第三列说明了要求:

+----------------------------+------+----------------------------+
| filename | year | reqd_filename |
+----------------------------+------+----------------------------+
| blah_2020_v1_blah_blah.csv | 1975 | blah_1975_v1_blah_blah.csv |
+----------------------------+------+----------------------------+
| blah_2019_v1_blah_blah.csv | 1984 | blah_1984_v1_blah_blah.csv |
+----------------------------+------+----------------------------+

代码目前如下所示:

df = df.withColumn('filename', F.regexp_replace(F.col('filename',), '(blah_)(.*)(_v1.*)', <Nothing I put here works>))

简而言之,我想用 df 中的 year 列替换第二组

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com