- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量。
有没有不破坏命令链的解决方法?
更一般地说,如何在 sparklyr 数据帧上使用类似 sql 的窗口函数。
## generating a data set
set.seed(.328)
df <- data.frame(
ids = floor(runif(10, 1, 10)),
cats = sample(letters[1:3], 10, replace = TRUE),
vals = rnorm(10)
)
## copying to Spark
df.spark <- copy_to(sc, df, "df_spark", overwrite = TRUE)
# Source: table<df_spark> [?? x 3]
# Database: spark_connection
# ids cats vals
# <dbl> <chr> <dbl>
# 9 a 0.7635935
# 3 a -0.7990092
# 4 a -1.1476570
# 6 c -0.2894616
# 9 b -0.2992151
# 2 c -0.4115108
# 9 b 0.2522234
# 9 c -0.8919211
# 6 c 0.4356833
# 6 b -1.2375384
# # ... with more rows
# using the regular dataframe
df %>% mutate(n_ids = n_distinct(ids))
# ids cats vals n_ids
# 9 a 0.7635935 5
# 3 a -0.7990092 5
# 4 a -1.1476570 5
# 6 c -0.2894616 5
# 9 b -0.2992151 5
# 2 c -0.4115108 5
# 9 b 0.2522234 5
# 9 c -0.8919211 5
# 6 c 0.4356833 5
# 6 b -1.2375384 5
# using the sparklyr data frame
df.spark %>% mutate(n_ids = n_distinct(ids))
Error: Window function `distinct()` is not supported by this database
最佳答案
这里最好的方法是单独计算计数,或者使用 count
∘ distinct
:
n_ids <- df.spark %>%
select(ids) %>% distinct() %>% count() %>% collect() %>%
unlist %>% as.vector
df.spark %>% mutate(n_ids = n_ids)
或approx_count_distinct
:
n_ids_approx <- df.spark %>%
select(ids) %>% summarise(approx_count_distinct(ids)) %>% collect() %>%
unlist %>% as.vector
df.spark %>% mutate(n_ids = n_ids_approx)
这有点冗长,但如果您想使用全局无界框架,dplyr
使用的窗口函数方法无论如何都是死胡同。
如果您想要准确的结果,您还可以:
df.spark %>%
spark_dataframe() %>%
invoke("selectExpr", list("COUNT(DISTINCT ids) as cnt_unique_ids")) %>%
sdf_register()
关于r - 唯一值的数量 sparklyr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49538717/
当我尝试使用 Rstudio 和 sparklyr 使用此代码访问 Hive 表时: library(sparklyr) library(dplyr) Sys.setenv(SPARK_HOME="/
以下示例描述了如何在不使用 dplyr 和 sparklyr 聚合行的情况下计算不同值的数量。 有没有不破坏命令链的解决方法? 更一般地说,如何在 sparklyr 数据帧上使用类似 sql 的窗口函
我正在尝试在 sparklyr 中复制 tidyr:complete 函数。我有一个包含一些缺失值的数据框,我必须填写这些行。在 dplyr/tidyr 中我可以这样做: data
我想从 sparklyr 中我的 Spark DataFrame 的每个类中采样 n 行。 我知道 dplyr::sample_n 函数不能用于此 (Is sample_n really a rand
希望将一些 R 代码转换为 Sparklyr,函数如 lmtest::coeftest() 和 sandwich::sandwich()。尝试开始使用 Sparklyr 扩展,但对 Spark API
我想跳过(退出)文本文件的前两行: 据我所知,使用 sparklyr 方法是不可能的 spark_read_csv .有一些解决方法可以解决这个简单的问题吗? 我知道 sparklyr extensi
在 Spark 2.0 中,我可以将多个文件路径合并为一个加载(参见例如 How to import multiple csv files in a single load?)。 如何使用 spark
Sparklyr 处理分类变量 我来自 R 背景,习惯于在后端处理分类变量(作为因子)。对于 Sparklyr,使用 string_indexer 或 onehotencoder 非常令人困惑。 例如
我正在尝试在sparklyr中读取2GB〜(5mi行)的.csv: bigcsvspark <- spark_read_csv(sc, "bigtxt", "path",
我很抱歉这个问题很难完全重现,因为它涉及一个正在运行的 spark 上下文(在下面引用为 sc),但我正在尝试在 sparklyr 中设置一个 hadoopConfiguration,专门用于从 RS
我有一个朴素贝叶斯模型在 sparklyr 中使用 ml_naive_bayes 运行,如下所示: library(sparklyr) library(dplyr) sc model Call: m
我在使用 ft_.. sparklyr R 包中的函数时遇到了一些问题。 ft_bucketizer 有效,但 ft_normalizer 或 ft_min_max_scaler 无效。这是一个例子:
即使在相当小的数据集上,我也会遇到堆空间错误。我可以确定我没有耗尽系统内存。例如,考虑一个包含大约 20M 行和 9 列的数据集,它在磁盘上占用 1GB。我在具有 30GB 内存的 Google Co
尝试在 sparklyr 中拆分一个字符串,然后将其用于连接/过滤 我尝试了将字符串标记化然后将其分离到新列的建议方法。这是一个可重现的示例(请注意,我必须将在 copy_to 之后变成字符串“NA”
我对 sparklyr 和 spark 很陌生,所以如果这不是执行此操作的“spark”方式,请告诉我。 我的问题 我有 50 多个 .txt 文件,每个文件大约 300 mb,都在同一个文件夹中,将
我对 Spark 很陌生,目前正在通过 sparkly 包使用 R API 使用它。我从 hive 查询创建了一个 Spark 数据框。源表中未正确指定数据类型,我试图通过利用来自 dplyr 的函数
我需要使用 sparklyr 计算 R 中两个字符串之间的距离。有没有办法使用 stringdist 或任何其他包?我想使用cousine distance。此距离用作 stringdist 函数的方
在以下示例中,我加载了一个 Parquet 文件,该文件包含 meta 中 map 对象的嵌套记录。 field 。 sparklyr似乎在处理这些方面做得很好。然而tidyr::unnest不会转换
我是 sparklyr 的新手(但熟悉 spark 和 pyspark),我有一个非常基本的问题。我正在尝试根据部分匹配过滤列。在 dplyr 中,我会这样写我的操作: businesses %>%
我在 Spark 中有一个数据框,希望在按特定列分组后计算 0.1 分位数。 例如: > library(sparklyr) > library(tidyverse) > con = spark_co
我是一名优秀的程序员,十分优秀!