r - 计算 R 中的单例数-6ren

r - 计算 R 中的单例数

转载作者：行者123 更新时间：2023-12-01 08:26:42

25

4

我有一些 RNA-seq 数据，我需要计算单例的数量。我们将单例定义为在附近(距离任一侧 100 个碱基的距离内)没有任何其他读取的读取。

我有一个数据框，其中包含每次读取的开始坐标和结束坐标。我正在使用 R 来执行此操作。

我暂时写了这段代码，但应用不正确，因此出现错误。

begin_end <- data.frame(begin_coordinate, final_coordinate)
apply(begin_end, 1, function(x) x[,1]-(x-1)[,2])

数据框的第一行是:

> head(begin_end)

    begin   final
1   60507   60551
2   60790   60840
3   62004   62051
4   62819   62868
5   65141   65187

第一个似乎是单例，因为下一个读取在结束后开始超过 100 个碱基，数据集第一行中的其余部分也是如此。但是数据框很长，我希望不是所有的读取都是单例的。

最佳答案

这与@jeremycg 对 dplyr 的 lag 和 lead 所做的相同，但在 data.table 中:

library(data.table)
setDT(begin_end)

begin_end[{
  d = begin - shift(final, type="lag")
  pmin(d, shift(d, type="lead"), na.rm=TRUE) > 100
}]

评论。基本的data.table语法是DT[i,j]。 i 用于过滤输入，而 j 用于修改输出。

我们在上面使用了 i，但是为了检查它是如何工作的，我们可以将相关向量折腾到 j 中:

begin_end[,{
  d       = begin - shift(final, type="lag")
  d_lead  = shift(d, type="lead")
  my_pmin = pmin(d, d_lead, na.rm=TRUE)
  c(.SD, list(d = d, d_lead = d_lead, my_pmin = my_pmin))
}]

#    begin final    d d_lead my_pmin
# 1: 60507 60551   NA    239     239
# 2: 60790 60840  239   1164     239
# 3: 62004 62051 1164    768     768
# 4: 62819 62868  768   2273     768
# 5: 65141 65187 2273     NA    2273

.SD 是表中已有的列向量列表，是 Subset of Data 的缩写。

关于r - 计算 R 中的单例数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32849994/

25

4

0

文章推荐： clojure - 从循环中返回一个值

文章推荐： python - df.loc[anything].index 和 iloc 有什么不同？

文章推荐： perl - 为什么我的 Perl CGI 程序不能在 Windows 上运行？

c - 例 1-8 C 编程语言
我最近购买了《C 编程语言》并尝试了 Ex 1-8这是代码 #include #include #include /* * */ int main() { int nl,nt,nb;
php - 在 php SESSION 中使用空 - 0 例
早上好!我有一个变量“var”，可能为 0。我检查该变量是否为空，如果不是，我将该变量保存在 php session 中，然后调用另一个页面。在这个新页面中，我检查我创建的 session 是否为空，
python - 为什么有些参数需要定义，有些则不需要？ (艰难地学习 Python，例 25)
我正在努力完成 Learn Python the Hard Way ex.25，但我无法理解某些事情。这是脚本: def break_words(stuff): """this functio

首页

博学

6Ren·AI

商城

r - 计算 R 中的单例数