- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想找到两个组之间变量的最接近的匹配(最小差异),但如果已经进行了最接近的匹配,则继续进行下一个最接近的匹配,直到进行了 n 次匹配。
我使用了这个 answer 中的代码(下)找到最接近的匹配 value
之间Samples
对于所有组的每个成对分组(即 Location
by VAR
)。
但是,有很多重复,顶级匹配为Sample.x
1、2 和 3 可能都是 Sample.y
1.
我想要的是为 Sample.x
找到下一个最接近的匹配项2,然后是 3,依此类推,直到我指定了不同的 ( Sample.x
- Sample.y
) 匹配次数。但是Sample.x
的顺序不重要,我只是在寻找 Sample.x
之间的前 n 个匹配项和 Sample.y
对于给定的分组。
我试图用 dplyr::distinct
做到这一点如下所示。但我不确定如何为 Sample.y
使用不同的条目过滤数据帧,然后再次过滤最小的 DIFF
.但是,这不一定会导致唯一的 Sample
配对。
有没有一种聪明的方法可以用 dplyr 在 R 中完成这个?这种类型的操作有名称吗?
df01 <- data.frame(Location = rep(c("A", "C"), each =10),
Sample = rep(c(1:10), times =2),
Var1 = signif(runif(20, 55, 58), digits=4),
Var2 = rep(c(1:10), times =2))
df001 <- data.frame(Location = rep(c("B"), each =10),
Sample = rep(c(1:10), times =1),
Var1 = c(1.2, 1.3, 1.4, 1.6, 56, 110.1, 111.6, 111.7, 111.8, 120.5),
Var2 = c(1.5, 10.1, 10.2, 11.7, 12.5, 13.6, 14.4, 18.1, 20.9, 21.3))
df <- rbind(df01, df001)
dfl <- df %>% gather(VAR, value, 3:4)
df.result <- df %>%
# get the unique elements of Location
distinct(Location) %>%
# pull the column as a vector
pull %>%
# it is factor, so convert it to character
as.character %>%
# get the pairwise combinations in a list
combn(m = 2, simplify = FALSE) %>%
# loop through the list with map and do the full_join
# with the long format data dfl
map(~ full_join(dfl %>%
filter(Location == first(.x)),
dfl %>%
filter(Location == last(.x)), by = "VAR") %>%
# create a column of absolute difference
mutate(DIFF = abs(value.x - value.y)) %>%
# grouped by VAR, Sample.x
group_by(VAR, Sample.x) %>%
# apply the top_n with wt as DIFF
# here I choose 5,
# and then hope that this is enough to get a smaller n of final matches
top_n(-5, DIFF) %>%
mutate(GG = paste(Location.x, Location.y, sep="-")))
res1 <- rbindlist(df.result)
res2 <- res1 %>% group_by(GG, VAR) %>% distinct(Sample.y)
res3 <- res2 %>% group_by(GG, VAR) %>% top_n(-2, DIFF)
最佳答案
我编辑上面产生 df.result
的代码通过删除行 top_n(-5, DIFF) %>%
.现在 res1
包含 Sample.x
的所有匹配项和 Sample.y
.
然后我用了 res1
在下面的代码中。这可能并不完美,但它所做的是找到最接近的 Sample.y
匹配 Sample.x
的第一个条目.那么这两个 Samples
从数据框中过滤。匹配重复,直到为 Sample.y
的每个唯一值找到匹配项.结果可能会有所不同,具体取决于首先进行的匹配。
fun <- function(df) {
HowMany <- length(unique(df$Sample.y))
i <- 1
MyList_FF <- list()
df_f <- df
while (i <= HowMany){
res1 <- df_f %>%
group_by(grp, VAR, Sample.x) %>%
filter(DIFF == min(DIFF)) %>%
ungroup() %>%
mutate(Rank1 = dense_rank(DIFF))
res2 <- res1 %>% group_by(grp, VAR) %>% filter(rank(Rank1, ties.method="first")==1)
SY <- as.numeric(res2$Sample.y)
SX <- as.numeric(res2$Sample.x)
res3 <- df_f %>% filter(Sample.y != SY) # filter Sample.y
res4 <- res3 %>% filter(Sample.x != SX) # filter Sample.x
df_f <- res4
MyList_FF[[i]] <- res2
i <- i + 1
}
do.call("rbind", MyList_FF) # https://stackoverflow.com/a/55542822/1670053
}
df <- res1
MyResult <- df %>%
dplyr::group_split(grp, VAR) %>%
map_df(fun)
关于r - 在组之间查找最接近的匹配,然后是下一个最接近的匹配,直到进行了指定数量的匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55229959/
我正在我的 java 作业中使用 GUI,并且我必须指定 JCheckBox 中的其他内容。除了这个小要求,其他的我都完成了。我不太确定如何解决这个问题,我查阅了我的书并尝试在线研究 要求: 一系列复
在各种语言中(我将在这里使用 JavaScript,但我已经在 PHP 和 C++ 中以及可能在其他地方看到过它),似乎有几种构造简单 for 循环的方法。版本 1 如下: var top = doc
有没有一种方法可以使用 CSS 指定每次“小于符号”(在键盘上 M 的右侧)或“大于符号”出现在文本中时,它应该被替换为分别是“小于”或“大于”的实际词? 最佳答案 CSS 不能作用于(不能修改,即)
首先,使用 setspn 命令为用户注册服务主体名称。 setspn -a CS/dummy@abc.com dummyuser setspn -l dummyuser 给出输出为 CS/dummy@
我在指定从 SFSafariViewController 访问时遇到问题,因为它具有与 Safari 浏览器完全相同的用户代理。 我要做的是仅在 webview 内显示图片,如果在普通浏览器上查看,则
我正在尝试用 R 语言在 lavaan 中指定一个奇怪的模型。该模型如下所示: 我的规范尝试如下所示。我发现难以实现的是将观察到的变量的唯一误差固定为唯一项的两个相关性的总和。 例如,项目 y*1,2
我正在构建 API 以将我的 React 应用程序与我的后端服务连接起来,我想使用 typescript 来指定 data 的类型在我的 Axios 请求中。如何在不修改其他字段的情况下更新 Axio
如何为模型指定初始“软”值?该初始模型是解决类似查询的结果,并且该模型很可能具有正确的部分,甚至对于当前查询可能是正确的。 目前,我正在通过增量求解和 hard/soft constraints 对此
我有来自网页的以下代码 https://cwiki.apache.org/confluence/display/KAFKA/0.8.0+Producer+Example 似乎缺少的是如何配置分区数。我
有没有办法在每个查询的基础上在 Neo4jClient 中指定 Cypher 解析器的版本,如 here 所述? 谢谢! 最佳答案 如果您将 Neo4jClient 更新到最新版本(> 1.0.0.6
我有以下代码生成四个图,但它们最终被压扁(见下图)。我该如何解决这个问题? par(mfrow=c(2,2)) curve(.5*exp(-.5*x),from=0,to=10,main="f(x)"
我有一个 ColdFusion 10 服务器。我正在使用 JDBC 驱动程序连接到 db2 数据库。我偶然发现了这个笔记。这个设置在哪里?我还查看了 neo*.xml 文件,但没有看到任何 db 驱动
我想知道是否可以指定验证器的运行顺序。 目前,我编写了一个自定义验证器,检查它是否为 [a-zA-Z0-9]+ 以确保登录验证我们的规则,并编写了一个远程验证器以确保登录可用,但目前远程验证器已启动在
我的应用程序需要至少 40MB 的 RAM,因此早期的 iPhone(例如 3G、第一个 iPod touch 版本)就没有它(它们为我的应用程序提供的最大内存约为 20MB)。有没有正确的方法来禁用
我有一个保存日期(不是当前日期)的 Date 对象,我需要以某种方式指定该日期为 UTC,然后将其转换为“欧洲/巴黎”,即 +1 小时。 public static LocalDateTime toL
我想问你在 Varnish 代码中如何在没有缓存的情况下将请求传递到后端。 我知道我可以做到并且正在发挥作用: if (req.url ~ "(\?|&)(something|somethin
我目前基于模块编译程序(如主程序 foo 依赖于模块 bar )如下: gfortran -c bar.f90 gfortran -o foo.exe foo.f90 bar.o 这在 foo.f90
我正在尝试创建一个依赖于另一个 meteor 包的新 meteor 包。当我尝试 meteor add mypackage 时,出现以下错误。为什么 Meteor 不添加 mypackage 并引入它
我正在制作执行器/ react 器,同时发现这是一个终生的问题。它与 async/Future 无关,可以在没有 async 糖的情况下进行复制。 use std::future::Future; s
我在 cassandra 中有一个表,其数据类型为时间戳。我正在使用 cqlsh 从数据库中获取数据,并希望更改我的时间戳列输出的输出格式。我研究了一下,发现我可以通过更改以下文件来更改时间戳输出格式
我是一名优秀的程序员,十分优秀!