gpt4 book ai didi

python - 如何在 ML pyspark 管道中添加我自己的函数作为自定义阶段?

转载 作者:太空狗 更新时间:2023-10-30 00:42:32 26 4
gpt4 key购买 nike

<分区>

来自 Florian 的示例代码

-----------+-----------+-----------+
|ball_column|keep_the |hall_column|
+-----------+-----------+-----------+
| 0| 7| 14|
| 1| 8| 15|
| 2| 9| 16|
| 3| 10| 17|
| 4| 11| 18|
| 5| 12| 19|
| 6| 13| 20|
+-----------+-----------+-----------+

代码的第一部分删除了禁止列表中的列名

#first part of the code

banned_list = ["ball","fall","hall"]
condition = lambda col: any(word in col for word in banned_list)
new_df = df.drop(*filter(condition, df.columns))

所以上面的代码应该删除 ball_columnhall_column

代码的第二部分将列表中的特定列存储起来。对于此示例,我们将存储唯一剩余的 keep_column

bagging = 
Bucketizer(
splits=[-float("inf"), 10, 100, float("inf")],
inputCol='keep_the',
outputCol='keep_the')

现在使用管道对列进行装袋

model = Pipeline(stages=bagging).fit(df)

bucketedData = model.transform(df)

如何将代码的第一 block (banned listconditionnew_df)作为一个阶段添加到 ml 管道中?

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com