gpt4 book ai didi

r - 如何在sparklyr中找到丢失数据的列

转载 作者:行者123 更新时间:2023-12-04 10:47:48 25 4
gpt4 key购买 nike

示例样本数据

Si      K       Ca      Ba  Fe  Type
71.78 0.06 8.75 0 0 1
72.73 0.48 7.83 0 0 1
72.99 0.39 7.78 0 0 1
72.61 0.57 na 0 0 na
73.08 0.55 8.07 0 0 1
72.97 0.64 8.07 0 na 1
73.09 na 8.17 0 0 1
73.24 0.57 8.24 0 0 1
72.08 0.56 8.3 0 0 1
72.99 0.57 8.4 0 0.11 1
na 0.67 8.09 0 0.24 1

我们可以将数据加载到 sparklyr使用以下代码
sdf_copy_to(sc,sampledata)

我正在寻找返回具有 NA 值的列的查询
例如像
si k ca fe
1 1 1 2

最佳答案

由于tbl_spark,这个问题实际上有点棘手。 Spark 和 R 语义中的实现和不兼容性。即使可以申请colSums , Spark SQL 不允许 bool 值和数字之间的隐式转换。这意味着您必须明确申请 as.numeric :

library(dplyr)

sampledata <- copy_to(sc, data.frame(x=c(1, NA, 2), y=c(NA, 2, NA), z=42))

sampledata %>%
mutate_all(is.na) %>%
mutate_all(as.numeric) %>%
summarize_all(sum)

# Source:   lazy query [?? x 3]
# Database: spark_connection
x y z
<dbl> <dbl> <dbl>
1 1 2 0

关于r - 如何在sparklyr中找到丢失数据的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47432867/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com