gpt4 book ai didi

r - 如何使用sparklyr对选定的列用列均值估算缺失值?

转载 作者:行者123 更新时间:2023-12-03 03:10:52 26 4
gpt4 key购买 nike

对于sparklyr中的Spark数据帧,我知道NA可以使用na.replace(number)通过固定数字来估算,我也知道我可以这样做na.replace(x=something) 用于硬编码列。

现在我有一个包含列名称的向量,我想用平均值来估算缺失值。我该如何插入这些列中所有缺失值的平均值?

我研究了 spark_apply 以在其上应用 mice,但尚未找到解决方案。

谢谢!

最佳答案

您可以使用Imputer 。假设数据如下所示:

df <- copy_to(sc, tibble(id=1:3, x=c(1, NA, 3), y=c(NA, 2, -1)))

转换器需要输入和输出列列表:

input_cols <- c("x", "y")
output_cols <- paste0(input_cols, "_imp")

并且可以按如下所示应用:

df %>% 
ft_imputer(input_cols=input_cols, output_cols=output_cols, strategy="mean")
# Source:   table<sparklyr_tmp_73a32e74369c> [?? x 5]
# Database: spark_connection
id x y x_imp y_imp
<int> <dbl> <dbl> <dbl> <dbl>
1 1 1 NaN 1 0.5
2 2 NaN 2 2 2
3 3 3 -1 3 -1

关于r - 如何使用sparklyr对选定的列用列均值估算缺失值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50727431/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com