- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 Rcpp 函数,它读取大型 BAM 文件(1-20GB,使用 htslib
)并创建几个非常长的 std::vector
s(最多 80M 个元素)。阅读之前不知道元素的数量,所以我不能使用 Rcpp::IntegerVector
和 Rcpp::CharacterVector
.据我了解,当我 Rcpp::wrap
为了进一步使用它们,创建了拷贝。在这种情况下,有没有办法加快数据从 C++ 到 R 的传输?是否有可以在 Rcpp 函数中创建的数据结构,请尽快 push_back
元素为 std::vector
是,并通过引用传递给 R?
以防万一,这是我目前创建它们的方式:
std::vector<std::string> seq, xm;
std::vector<int> rname, strand, start;
下面是我如何包装和返回它们:
Rcpp::IntegerVector w_rname = Rcpp::wrap(rname);
w_rname.attr("class") = "factor";
w_rname.attr("levels") = chromosomes; // chromosomes contain names of the reference sequences from BAM
Rcpp::IntegerVector w_strand = Rcpp::wrap(strand);
w_strand.attr("class") = "factor";
w_strand.attr("levels") = strands; // std::vector<std::string> strands = {"+", "-"};
Rcpp::DataFrame res = Rcpp::DataFrame::create(
Rcpp::Named("rname") = w_rname,
Rcpp::Named("strand") = w_strand,
Rcpp::Named("start") = start,
Rcpp::Named("seq") = seq,
Rcpp::Named("XM") = xm
);
return(res);
编辑 1(2021.10.19):
感谢大家的意见,我需要更多的时间来检查是否stringfish
可以使用,但我从 cpp11 包 vignettes 运行了一个稍微修改的测试,将它与 std::vector
进行比较.这是代码和结果(显示 std::vector<int>
仍然更快,尽管它必须在返回时被 Rcpp::wrap
ped):
Rcpp::cppFunction('
#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]
std::vector<int> stdint_grow_(SEXP n_sxp) {
R_xlen_t n = REAL(n_sxp)[0];
std::vector<int> x;
R_xlen_t i = 0;
while (i < n) {
x.push_back(i++);
}
return x;
}')
library(cpp11test)
grid <- expand.grid(len = 10 ^ (0:7), pkg = c("cpp11", "stdint"), stringsAsFactors = FALSE)
b_grow <- bench::press(.grid = grid,
{
fun = match.fun(sprintf("%sgrow_", ifelse(pkg == "cpp11", "", paste0(pkg, "_"))))
bench::mark(
fun(len)
)
}
)[c("len", "pkg", "min", "mem_alloc", "n_itr", "n_gc")]
print(b_grow, n=Inf)
# A tibble: 12 × 6
len pkg min mem_alloc n_itr n_gc
<dbl> <chr> <bch:tm> <bch:byt> <int> <dbl>
1 100 cpp11 1.9µs 1.89KB 9999 1
2 1000 cpp11 6.1µs 16.03KB 9999 1
3 10000 cpp11 58.11µs 256.22KB 7267 12
4 100000 cpp11 488.15µs 2MB 815 11
5 1000000 cpp11 4.34ms 16MB 88 14
6 10000000 cpp11 97.39ms 256MB 4 5
7 100 stdint 1.6µs 2.93KB 10000 0
8 1000 stdint 3.36µs 6.45KB 9998 2
9 10000 stdint 19.87µs 41.6KB 9998 2
10 100000 stdint 181.88µs 393.16KB 2571 4
11 1000000 stdint 1.91ms 3.82MB 213 3
12 10000000 stdint 36.09ms 38.15MB 9 1
编辑 2:
std::vector<std::string>
比 cpp11::writable::strings
稍慢在这些测试条件下,但内存效率更高:
Rcpp::cppFunction('
#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]
std::vector<std::string> stdstr_grow_(SEXP n_sxp) {
R_xlen_t n = REAL(n_sxp)[0];
std::vector<std::string> x;
R_xlen_t i = 0;
while (i++ < n) {
std::string s (i, 33);
x.push_back(s);
}
return x;
}')
cpp11::cpp_source(code='
#include "cpp11/strings.hpp"
[[cpp11::register]] cpp11::writable::strings cpp11str_grow_(R_xlen_t n) {
cpp11::writable::strings x;
R_xlen_t i = 0;
while (i++ < n) {
std::string s (i, 33);
x.push_back(s);
}
return x;
}
')
library(cpp11test)
grid <- expand.grid(len = 10 ^ (0:5), pkg = c("cpp11str", "stdstr"), stringsAsFactors = FALSE)
b_grow <- bench::press(.grid = grid,
{
fun = match.fun(sprintf("%sgrow_", ifelse(pkg == "cpp11", "", paste0(pkg, "_"))))
bench::mark(
fun(len)
)
}
)[c("len", "pkg", "min", "mem_alloc", "n_itr", "n_gc")]
print(b_grow, n=Inf)
# A tibble: 12 × 6
len pkg min mem_alloc n_itr n_gc
<dbl> <chr> <bch:tm> <bch:byt> <int> <dbl>
1 1 cpp11str 1.22µs 0B 10000 0
2 10 cpp11str 3.02µs 0B 9999 1
3 100 cpp11str 22µs 1.89KB 9997 3
4 1000 cpp11str 765.28µs 541.62KB 602 2
5 10000 cpp11str 66.69ms 47.91MB 8 0
6 100000 cpp11str 6.83s 4.62GB 1 0
7 1 stdstr 1.38µs 2.49KB 10000 0
8 10 stdstr 1.86µs 2.49KB 10000 0
9 100 stdstr 16.44µs 3.32KB 10000 0
10 1000 stdstr 898.23µs 10.35KB 511 0
11 10000 stdstr 73.55ms 80.66KB 7 0
12 100000 stdstr 7.54s 783.79KB 1 0
解决方案(2022.01.12):
...对于那些有类似问题的人。在这种特殊情况下,我不需要使用 std::vector
R.So 中的数据 XPtr
轻松解决了我的问题,将 BAM 加载时间缩短了近两倍。指针被创建:
std::vector<std::string>* seq = new std::vector<std::string>;
std::vector<std::string>* xm = new std::vector<std::string>;
然后存储为 data.frame
属性:
Rcpp::DataFrame res = Rcpp::DataFrame::create(
Rcpp::Named("rname") = w_rname,
Rcpp::Named("strand") = w_strand,
Rcpp::Named("start") = start
);
Rcpp::XPtr<std::vector<std::string>> seq_xptr(seq, true);
res.attr("seq_xptr") = seq_xptr;
Rcpp::XPtr<std::vector<std::string>> xm_xptr(xm, true);
res.attr("xm_xptr") = xm_xptr;
并在其他地方重用如下:
Rcpp::XPtr<std::vector<std::string>> seq((SEXP)df.attr("seq_xptr"));
Rcpp::XPtr<std::vector<std::string>> xm((SEXP)df.attr("xm_xptr"));
最佳答案
我们使用 std::vector<>
因为其强大的实现加上出色的性能(因为在任何比较中通常很难看到 std::vector<>
被打败)。但它使用自己的分配器来分配 R 之外的内存。
Rcpp
将对象返回给 R,这些对象与 R 创建的对象无法区分,因为它们使用 R 自己的数据结构,并且需要将最终拷贝复制到 R 使用、拥有和分配的内存中。如果您想使用当前接口(interface),根本无法绕过它将所有元素返回给 R。
R 现在有 ALTREP 允许替代/外部表示,所以你可以做一些不同的东西,但实际上这有点困难,因为 ALTREP 的 API 仍然有些不完整和变化。一些软件包是使用 ALTREP 构建的,但我现在没有想到适合您的特定用例。
编辑:对于您的字符串 vector ,您可以(并且应该)尝试 stringfish Travers 包装。它对字符串使用 ALTREP,这可能是您更大的性能障碍。对于 int
vector 我没有其他选择,但也许是最终的 memcpy
也没有那么痛苦(与内部处理不同的字符串相反,这使得它们更昂贵)。
关于c++ - 是否可以在不复制非常大的 std::vector 的情况下执行 Rcpp::wrap,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69612309/
我想将函数参数中的默认值设置为 Rcpp::Function 参数。 只是简单的赋值,Rcpp::Function func = mean , 不可能。它返回错误:no viable conversi
我正在处理需要逐元素矩阵乘法的代码。我试图在 Rcpp 中实现这一点,因为代码需要一些昂贵的循环。我对 Rcpp 还很陌生,可能会遗漏一些东西,但我无法使逐元素矩阵乘法工作。 // [[Rcpp::e
在 C++ 中,我们可以声明一个变量作为引用。 int a = 10; int& b = a; 如果我们设置 b=15 , a 也会改变。 我想在 Rcpp 中做类似的事情。 List X = obj
我正在阅读很棒的 Rcpp vignette关于使用 Rcpp 模块公开 C++ 类和函数。在这种情况下,是否可以创建一个 Rcpp 函数,该函数具有一个类型为 Uniform 的类作为参数之一,并且
我在 R 中有一个命名列表: l = list(a=1, b=2) 我想在 Rcpp 中使用这个列表,并迭代值和名称。理想情况下,它可能类似于(为简洁起见使用 C++11 格式): void prin
这个问题在这里已经有了答案: Rcpp - sourceCpp - undefined symbol (2 个答案) 关闭 4 年前。 我现有的 C 代码由三个文件组成:头文件(“.h”文件)、库文
我目前正在为类作业编写模拟退火算法(“解决”背包问题),并想在 Rcpp 中完成(我必须使用 R,而 Rcpp 更快)。 Rcpp 一直给我以下错误 invalid static_cast from
根据我的理解,在 Rcpp 和 C++ 之间转换 vector 会创建新 vector ,如下所示。我的理解对吗? 将 Rcpp vector 转换为 C++ vector 时,我们使用 Rcpp::
我想将参数的默认值设置为 NULL在Rcpp如果参数不是NULL,则函数并根据参数进行一些计算.这种代码的一个例子是 #include using namespace Rcpp; // [[Rcpp
任何人都可以解释以下行为吗? 当声明一个新的NumericMatrix时,y,作为原始矩阵,x,乘以一个标量,c,标量/矩阵乘法的顺序很重要。如果我将左侧的标量与右侧的矩阵相乘(例如 NumericM
有一种方法可以使用 NA 值初始化数值向量,例如。 NumericVector x(10,NumericVector::get_na()) 有没有类似的方法可以将矩阵初始化为 NA 值? 最佳答案 这
这可能是一个非常简单的问题,但我不知道哪里出了问题。 我有一个传递给 Rcpp 函数的列表,该列表的第一个元素是一个 data.frame。 我如何获取该 data.frame? bar = list
我正在尝试开发一个使用 Sundials 的 R 包用于求解微分方程的 C 库。为了不让用户安装库,我将库的源代码放在我的包中。 我已将库中的所有头文件放入 /inst/include/sundial
我正在研究一个同时使用 Rcpp::IntegerVector (行/列指针)和模板化 std::vector 的 Rcpp 稀疏矩阵类。基本原理是,在极大的稀疏矩阵中深度复制整数指针 vector
我想将一个R函数翻译成Rcpp,一个简单的测试代码如下,但我不知道如何处理默认设置为NULL的参数。 test t=R_NilValue, Rcpp
我想将一个R函数翻译成Rcpp,一个简单的测试代码如下,但我不知道如何处理默认设置为NULL的参数。 test t=R_NilValue, Rcpp
我想公开一个 C++ 类和一个将该类的对象作为 R 参数的函数。我必须遵循简化的示例。我使用创建了一个包 Rscript -e 'Rcpp::Rcpp.package.skeleton("soq")'
我想用 Rcpp 编写一个 C++ 函数,它使用 hypred 包中的 C 函数,它在 CRAN here 上. 我读了using C function from other package in R
[我在别处将其草拟为评论,但决定创建一个适当的问题...] 在 Rcpp 中使用数据帧时,就代码结构而言,目前被认为是“最佳实践”的是什么?从 R 到 C++ 代码的输入数据帧“传输”非常容易,但是如
我正在尝试使用 Rcpp::CharacterMatrix 并将每一行转换为 Rcpp::List 中它自己的元素。 但是,我为此编写的函数有一个奇怪的行为,即列表的每个条目都对应于矩阵的最后一行。为
我是一名优秀的程序员,十分优秀!