r - 使用 dplyr::group_by() 对每个组进行 loess 回归-6ren

r - 使用 dplyr::group_by() 对每个组进行 loess 回归

转载作者：行者123 更新时间：2023-12-05 00:48:11

24

4

好吧，我挥舞着我的白旗。

我正在尝试对我的数据集计算 loess 回归。

我希望 loess 计算一组不同的点，这些点绘制为每个组的平滑线。

问题是 loess 计算逃避了 dplyr::group_by函数，所以 loess 回归是在整个数据集上计算的。

互联网搜索让我相信这是因为 dplyr::group_by不应该以这种方式工作。

我只是不知道如何在每个组的基础上进行这项工作。

以下是我尝试失败的一些示例。

test2 <- test %>% 
  group_by(CpG) %>% 
  dplyr::arrange(AVGMOrder) %>% 
  do(broom::tidy(predict(loess(Meth ~ AVGMOrder, span = .85, data=.))))

> test2
# A tibble: 136 x 2
# Groups:   CpG [4]
   CpG            x
   <chr>      <dbl>
 1 cg01003813 0.781
 2 cg01003813 0.793
 3 cg01003813 0.805
 4 cg01003813 0.816
 5 cg01003813 0.829
 6 cg01003813 0.841
 7 cg01003813 0.854
 8 cg01003813 0.866
 9 cg01003813 0.878
10 cg01003813 0.893

这个有效，但我不知道如何将结果应用于原始数据框中的列。我想要的结果是列 x。如果我将 x 作为单独行中的一列应用，我会遇到问题，因为我调用了 dplyr::arrange早些时候。

test2 <- test %>% 
  group_by(CpG) %>% 
  dplyr::arrange(AVGMOrder) %>% 
  dplyr::do({
    predict(loess(Meth ~ AVGMOrder, span = .85, data=.))
  })

这个只是失败并出现以下错误。

"Error: Results 1, 2, 3, 4 must be data frames, not numeric"

此外，它仍然没有作为 dplyr::mutate 的新列应用。

fems <- fems %>% 
  group_by(CpG) %>% 
  dplyr::arrange(AVGMOrder) %>% 
  dplyr::mutate(Loess = predict(loess(Meth ~ AVGMOrder, span = .5, data=.)))

这是我的第一次尝试，主要类似于我想做的事情。问题是这个对整个数据帧而不是每个 CpG 组执行 loess 预测。

我真的被困在这里了。我在网上读到 purr 包可能会有所帮助，但我无法弄清楚。

数据如下所示:

> head(test)
    X geneID        CpG                                        CellLine       Meth AVGMOrder neworder Group SmoothMeth
1  40     XG cg25296477 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.81107210         1        1     5  0.7808767
2  94     XG cg01003813 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.97052120         1        1     5  0.7927130
3 148     XG cg13176022 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.06900448         1        1     5  0.8045080
4 202     XG cg26484667 iPS__HDF51IPS14_passage27_Female____165.592.1.2 0.84077890         1        1     5  0.8163997
5  27     XG cg25296477  iPS__HDF51IPS6_passage33_Female____157.647.1.2 0.81623880         2        2     3  0.8285259
6  81     XG cg01003813  iPS__HDF51IPS6_passage33_Female____157.647.1.2 0.95569240         2        2     3  0.8409501

unique(test$CpG) [1] "cg25296477" "cg01003813" "cg13176022" "cg26484667"

因此，要明确的是，我想对数据框中的每个唯一 CpG 进行 loess 回归，将生成的“回归 y 轴值”应用于与原始 y 轴值(Meth)匹配的列。

我的实际数据集有几千个这样的 CpG，而不仅仅是四个。

https://docs.google.com/spreadsheets/d/1-Wluc9NDFSnOeTwgBw4n0pdPuSlMSTfUVM0GJTiEn_Y/edit?usp=sharing

最佳答案

这是一种整洁的 Tidyverse 使其工作的方式:

library(dplyr)
library(tidyr)
library(purrr)
library(ggplot2)

models <- fems %>%
        tidyr::nest(-CpG) %>%
        dplyr::mutate(
                # Perform loess calculation on each CpG group
                m = purrr::map(data, loess,
                               formula = Meth ~ AVGMOrder, span = .5),
                # Retrieve the fitted values from each model
                fitted = purrr::map(m, `[[`, "fitted")
        )

# Apply fitted y's as a new column
results <- models %>%
        dplyr::select(-m) %>%
        tidyr::unnest()

# Plot with loess line for each group
ggplot(results, aes(x = AVGMOrder, y = Meth, group = CpG, colour = CpG)) +
        geom_point() +
        geom_line(aes(y = fitted))

关于r - 使用 dplyr::group_by() 对每个组进行 loess 回归，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50163106/

24

4

0

文章推荐： r - ggplot2 颜色条具有不连续跳跃的倾斜数据

文章推荐： mule - 如何在 Mule FunctionalTestCase 中指定特定的 VM 连接器

文章推荐： Liquibase : issue with setting boolean default value

文章推荐： Perl 部分匹配

r - 使用 group_by 并从 dplyr 中汇总不包含 group_by 变量的所有行
我有一个 data.frame，例如 df1 % summarise(no.c = n(), m.costs = mean(cost)) 通过 id 计算观测值的数
r - do add_row 和 group_by 的问题。在 add_row 中需要 group_by 变量名
问题:我想使用 dplyr/tibble add_row。我想在我的示例中按 A 对数据进行分组，然后 add_row 包含组名 A，然后是 B 的值。我面临的问题是尝试在 A 下的列中添加 Gro
elixir - Elixir Enum 或任何其他模块是否具有类似于 ruby 的 group_by 的 group_by 函数
Ruby 有这个很棒的方法 group_by对于可枚举的。 Elixir 有类似的东西吗？我在 Enum 模块上找不到此功能。谢谢最佳答案还没有。我们还没有添加它，因为我们正在等待 map 。它将
r - 如何 group_by 变量并将时间减少到 10 秒的区间，从 13 :24:00 exactly and average for group_by variable 开始
我有 30 个传感器的 CO2 测量数据，这些传感器不会同时测量，也不会完全在同一时间开始。我想尽可能地对齐它们，所以我认为取 10s 的平均值可能是一个很好的解决方案。在上一个问题中:Group
r - group_by 总计汇总值
我有数据和图表，就像我在下面给出的示例一样。我想要第三个“条件”，即给定年份和月份的条件 A 和条件 B 的总金额。我不知道该怎么做，因为 Condition 包含在 group_by 语句中。特别
r - 设置条件 group_by
我有一组看起来像这样的数据: +----------+------------+-------+-------+ | step1 | step2 | step3 | step4 | +
r - group_by 和过滤器删除了太多行
下面是我的示例，让我解释一下我正在尝试做的事情，尽管它并没有像我想要的那样工作。我需要找到同一个人在同一日期的 z 列中有 2 个以上唯一值的所有实例。但是，我需要找到 z 列中特定值列表的位置。
r - group_by 并创建一系列每月日期
我有一些数据如下所示: cusip date start_date end_date 1 00036020 2011-01-31 2011-07-29 2012-06-30
codeigniter group_by 只返回第一行
我在 codeigniter 中有这个问题: 我尝试从数据库制作导航树系统。模型: function getServices() { $this->db->select('service_url,
r - 在函数中使用dplyr的问题(group_by)
我想使用dplyr进行一些数据操作。背景:我有一个调查权重和一堆变量(主要是Likert项)。我想对带有或不带有调查权重的每个类别的频率和百分比求和。例如，让我们只使用频率作为性别变量。结果应该是这
r - Group_by 并在大型数据帧上缓慢变异
我正在处理大型(最少 8 百万行)dataframes并希望根据几个分组变量和 rmultinom 进行一些基本计算.就我的代码而言，完成计算至少需要约 1 秒，这不是问题，但我需要执行数千次，所以我
sqlalchemy group_by 和计数
我将 flask 用作带有 sqlalchemy 的 python 框架。这些模型使用 query_property 帮助我构建查询: class Person(object): qu
R:对所有值使用 group_by
我正在使用 R 编程语言。我有以下数据集: library(dplyr) df = structure(list(ethnicity = c("c", "c", "c", "b", "c", "b"
r - Group_by，并创建具有持续时间的新列
我有数据集，df， Subject Folder Message Date A Out 9/9/2019 5
MySQL 条件 GROUP_BY
我的数据库看起来(有点)像这样: Table 'posts': ID title text 62 Trees in Europe You can find fine t
MYSQL - 聚合时指定分隔符(group_by)？
我的一些组合值在文本字段中有逗号，有没有办法可以指定要连接的字符，而不是逗号？最佳答案在 mysql documentation你可以找到完整的语法 GROUP_CONCAT([DISTINCT]
ruby - group_by 数组中的字符串元素基于其内容
我想根据内容对数组的字符串元素进行分组。 ["abc", "abc", "def", "ghi", "ghi"].group_by { |x|一些代码所以我希望它返回: [["abc", "abc"
python - group_by 返回重复的键
Python 3.6我有一个简单的对象列表: for obj in obj_ts: print(obj['address']) 这告诉我: mwpJCSEEkphA1utQGA2Y9Vx8cu
php - GROUP_BY 仅在值等于时显示第一次出现
我有一个名为 questions 的表，其中包含以下行: questions.id | questions.target_username 1 | every.one 2
数组数组中的 Ruby group_by
我的数组是 fruits = [["apple", "Tue"], ["mango", "Mon"], ["apple", "Wed"], ["orange", "Tue"]] 我要得到的结果是Gro

首页

博学

6Ren·AI

商城

r - 使用 dplyr::group_by() 对每个组进行 loess 回归