- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
大家好,我正在处理一个非常大的数据集(200 列,750,000 行)。有一些单元格的值为 -1,我想根据该特定列的模式(最高重复值)替换每个单元格,而不仅仅是所有 -1 的一个标准值。例如,A 列中的 -1 替换为 A 列中的模式,B 列中的 -1 替换为 B 列中的模式。
有没有办法解决这个问题,而不必使用 if 函数创建新的 200 列和 750,000 行?
感谢您的宝贵时间。
问候,字里行间
最佳答案
我们可以使用Mode
函数来自 here
Mode <- function(x) {
ux <- unique(x)
ux[which.max(tabulate(match(x, ux)))]
}
然后,用mutate_all
replace
-1
的值与每列的“模式”
library(dplyr)
df1 %>%
mutate_all(funs(replace(., .== -1, Mode(.))))
尚不清楚 -1 是否作为列中出现频率最高的值。排除 mutate_all
中的那个
df1 %>%
mutate_all(funs(replace(., .== -1, Mode(.[. != -1]))))
<小时/>
此外,如果有没有-1的列,那么我们可以使用mutate_if
跳过这些
df1 %>%
mutate_if(funs(any(.==-1)),funs(replace(., .== -1, Mode(.[. != -1]))))
df1 <- structure(list(V1 = c(1L, 0L, 3L, 2L, 3L, 5L, 0L, 4L, 4L, 0L),
V2 = c(3L, 1L, 3L, 3L, 1L, 5L, 0L, -1L, 2L, -1L), V3 = c(-1L,
2L, 4L, -1L, 0L, 3L, -1L, 3L, 3L, -1L), V4 = c(1L, 0L, 1L,
0L, 5L, 0L, 4L, 3L, 3L, 5L), V5 = c(2L, 1L, 0L, 0L, -1L,
-1L, 1L, 1L, 0L, 1L)), .Names = c("V1", "V2", "V3", "V4",
"V5"), row.names = c(NA, -10L), class = "data.frame")
关于将值替换为每列的众数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47240160/
这个问题已经有答案了: Create a variable capturing the most frequent occurence by group (3 个回答) How to find the
我有一个类似这样的RDD color category green a green b red a orange a green b red d green c red d
我有一个数字数组。计算数据集的中位数、众数和标准差的最简单方法是什么? 最佳答案 Statistics::Basic::Mean Statistics::Basic::Median Statistic
我正在尝试获取数组中最常出现的数字,因此对于包含 1,2,10,5,1 的数组,结果应该是 1。我编写的代码返回的频率为每个数字,所以 1 出现两次,2 出现一次,10 出现一次等等。有什么建议可以解
我有一个基于概率的简单游戏,每天我们抛硬币,如果我们正面朝上,我们就赢,我们得到 20 美元,如果我们抛硬币,我们反面朝上,那么我们输掉 19 美元,最后每月(28 天)的一天,我们会看到我们损失了多
我正在尝试计算表中一系列 idsofInterest 的众数,每个 idsofInterest 都有一个附带的 valueOfInterest,例如: idsOfInterest | valueOfI
我是 jupyter notebook 的新手,想知道如何在函数内获取列的分位数: 数据框: num_likes | num_post | ... | 464.0 | 142.0 | .
是否有一种算法可以估计一组值的中值、众数、偏度和/或峰度,但不需要一次将所有值存储在内存中? 我想计算基本统计数据: 平均值:算术平均值 方差:与均值的平方偏差的平均值 标准差:方差的平方根 中位数:
我必须从表格中的一列中获取测试分数的中位数、众数和范围,但我不确定如何去做。当您使用 java 连接到数据库时,您通常会返回一个 ResultSet,您可以用它来制作表格或其他东西,但是您如何获得特定
我的任务是询问用户 x 的最小值和最大值。然后我使用极端值计算这些极端值之间的 20 个值。我必须在表格上显示 x 值及其 f(x) 值。然后我必须找到有关 f(x) 值的统计数据,例如最小值和最大值
我是一名优秀的程序员,十分优秀!