- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想从 sparklyr
中我的 Spark DataFrame 的每个类中采样 n 行。
我知道 dplyr::sample_n
函数不能用于此 (Is sample_n really a random sample when used with sparklyr?) 所以我使用了 sparklyr::sdf_sample()
函数.这样做的问题是我无法按组进行抽样,即从每个类中获取 10 个观察值,我只能指定要抽样的整个数据集的一部分。
我有一个解决方法,可以在循环中对每个组单独使用 sdf_sample()
,但由于该函数不会返回准确的样本大小,所以这仍然不理想。
解决方法的 R 代码:
library(sparklyr)
library(dplyr)
sc <- spark_connect(master = "local", version = "2.3")
# copy iris to our spark cluster
iris_tbl <- copy_to(sc, iris, overwrite = TRUE)
# get class counts
class_counts <- iris_tbl %>% count(Species) %>%
collect()
# Species n
# <chr> <dbl>
#1 versicolor 50
#2 virginica 50
#3 setosa 50
# we want to sample n = 10 points from each class
n <- 10
sampled_iris <- data.frame(stringsAsFactors = F)
for( i in seq_along(class_counts$Species)){
my_frac <- n / class_counts[[i, 'n']]
my_class <- class_counts[[i, 'Species']]
tmp <- iris_tbl %>%
filter(Species == my_class) %>%
sdf_sample(fraction = my_frac) %>%
collect()
sampled_iris <- bind_rows(sampled_iris, tmp)
}
我们并没有从每个类中得到恰好 10 个样本:
# new counts
sampled_iris %>% count(Species)
#Species n
# <chr> <int>
#1 setosa 7
#2 versicolor 9
#3 virginica 6
我想知道是否有更好的方法可以使用 sparklyr 获得跨组的平衡样本?或者甚至使用一个 sql 查询,我可以使用 DBI::dbGetQuery()
将其直接传递给集群?
最佳答案
I can't sample by group
只要分组列是字符串(这是 sparklyr
类型映射的限制),就可以使用 DataFrameStatFunctions.sampleBy
轻松处理该部分:
spark_dataframe(iris_tbl) %>%
sparklyr::invoke("stat") %>%
sparklyr::invoke(
"sampleBy",
"Species",
fractions=as.environment(list(
"setosa"=0.2,
"versicolor"=0.2,
"virginica"=0.2
)),
seed=1L
) %>% sparklyr::sdf_register()
然而,没有分布式和可扩展的方法可以为您提供“准确的样本量”。可以使用 hack,例如:
iris_tbl %>%
group_by(Species) %>%
mutate(rand = rand()) %>%
arrange(rand, .by_group=TRUE) %>%
filter(row_number() <= 10) %>%
select(-rand)
但是这种依赖于窗口函数的方法对倾斜的数据分布高度敏感,并且通常不能很好地扩展。
如果样本很小,你可以更进一步,但先过采样(使用第一种方法)然后获取精确样本(使用第二种方法),但如果你的数据大到足以用 Spark 处理,小波动应该无关紧要。
关于r - sparklyr:如何跨组获取平衡样本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59724685/
我正在尝试了解二叉树的属性。但我不确定一件事: 定义。二叉树的声明: 如果对于每个节点,它认为左子树中的内部节点数和右子树中的内部节点数最多相差 1,则二叉树是平衡的。 如果任意两个叶子的差异都存在,
我有一个带有分片键和索引的集合。但是当我运行平衡时,不会为这个集合移动 block ,因为其他集合 block 正在按预期移动到其他机器。此集合中仅移动了一个 block 。 最佳答案 目前(这将在不
给定一个data.table如下,id1是一个subject-level ID,id2是一个within-subject repeated-measure ID,X 是数据变量,其中有很多。我想平衡数
由于 C++ 集合是在二叉树中实现的,如果我们以递增或递减顺序插入项目,那么集合将更像是一个列表而不是树。有没有什么方法可以在插入项目后平衡树? 最佳答案 C++ 集(即 std::set)通常实现为
我是一名初学者程序员,设计了一个智能手机网站,我有一个主体背景图像,我想慢慢改变颜色平衡,交替颜色,就像有人将 Photoshop 颜色平衡控制条调整一定百分比一样。任一方向。当您查看页面时,这种情况
我开发了一段多线程代码。该代码在 Web 应用程序中调用,因此可能由多个线程(请求)并行调用。为了控制此代码将要创建的线程数量(通过多个并行请求调用),我使用静态共享 ThreadPoolExecut
我正在为 Linux 内核开发一些网络驱动程序。我有几个 if-else 条件,我正在重新分配或释放“skb”结构——这是我有点困惑的地方。关于我在那些 if-else 中做什么 - 我遇到了 2 种
平衡 BST 的最佳和最差搜索性能是什么?每种情况发生时如何用一句话解释? 最佳答案 最佳情况:当搜索到的元素位于树的根部时。你得到 O(1)。 最坏情况:当搜索元素在最长分支的叶子处时,树是单边的。
我在平衡 AVL 树问题上遇到了麻烦,因为我的解决方案似乎与教科书后面的解决方案冲突。我查看了 AVL 树的在线可视化,他们认为我的是正确的。我的课本错了吗? 这是树: 然后我必须将 65 插入到这个
我有一个系统,我在其中使用 RS232 来控制一个灯,该灯接受以浮点形式给出的表示电压(在 2.5 - 7.5 范围内)的输入。然后控件会给出 0 到 6000 范围内的输出,这是传感器拾取的亮度。
我有一个分层目录,每个目录中有很多文件,每个文本文件中有很多 URL 字符串。我想下载 Hadoop 中所有文件中的所有 URL,以实现更好的平衡。 例如,如果我有 1+5 个节点的 Hadoop 集
请查看附件图片,这是一种跷跷板。但从图像来看,黑体具有相同的密度。并且水平矩形使用“Revolute”关节与三角形相连。但仍然没有任何建议。在目前的情况下,它需要平衡。 最佳答案 由于浮点精度等限制导
因此,在平衡 KD 树时,您应该找到中位数,然后将所有较小的元素放在左子树上,将较大的元素放在右子树上。但是,如果您有多个元素与中位数具有相同的值,会发生什么情况?他们进入左子树,右子树还是丢弃它们?
请帮我找到一种干净的方法来从现有数组中创建一个新数组。如果任何类的示例数小于该类中的最大示例数,则应该进行过采样。样本应该从原始数组中提取(随机或顺序都没有区别) 比方说,初始数组是这样的: [ 2
我是一名软件开发人员,但想成为服务器可扩展性领域的新架构师。 在多个服务使用同一数据集的情况下,旨在扩展冗余和负载平衡。 问题是:在一个理想主义的系统中,服务是否应该尝试优化它们的内部处理以减少对远程
假设我有 10 个分区用于 Kafka 中的给定主题。 我的选择是在消费者之间自动平衡这 10 个分区的负载? 我已经阅读了这篇文章 https://stackoverflow.com/a/28580
假设我有一个 B 树,其节点为 3-4 配置(3 个元素和 4 个指针)。假设我按照规则合法地建立我的树,我是否有可能达到一层中有两个节点并且一个节点有 4 个退出指针而另一个节点只有两个退出指针的情
当光标在一个括号上时,如何跳转到配对括号。很高兴在 工作emacs -nw . 就像 % 在 Vim 中。 ;;从@Lindy、@Francesco 得到提示后,我发现了更多: C-M-f
我在平衡 AVL 树时遇到问题。我一直在寻找如何平衡它们的步骤,但我找不到任何有用的东西。 我知道有4种: 单左旋 单右旋 双左右旋转 双左右旋转 但我就是无法得到如何选择其中之一和 在哪个节点上应用
我想获得类似于打印中平衡文本行但用于 block 元素的结果。假设在一个 300/100 像素的容器中有一组 50/50 像素的盒子。在容器中 float 盒子将使它们填满一“行”,然后像这样包裹到下
我是一名优秀的程序员,十分优秀!