- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个 Rcpp 函数,它读取大型 BAM 文件(1-20GB,使用 htslib
)并创建几个非常长的 std::vector
s(最多 80M 个元素)。阅读之前不知道元素的数量,所以我不能使用 Rcpp::IntegerVector
和 Rcpp::CharacterVector
.据我了解,当我 Rcpp::wrap
为了进一步使用它们,创建了拷贝。在这种情况下,有没有办法加快数据从 C++ 到 R 的传输?是否有可以在 Rcpp 函数中创建的数据结构,请尽快 push_back
元素为 std::vector
是,并通过引用传递给 R?
以防万一,这是我目前创建它们的方式:
std::vector<std::string> seq, xm;
std::vector<int> rname, strand, start;
下面是我如何包装和返回它们:
Rcpp::IntegerVector w_rname = Rcpp::wrap(rname);
w_rname.attr("class") = "factor";
w_rname.attr("levels") = chromosomes; // chromosomes contain names of the reference sequences from BAM
Rcpp::IntegerVector w_strand = Rcpp::wrap(strand);
w_strand.attr("class") = "factor";
w_strand.attr("levels") = strands; // std::vector<std::string> strands = {"+", "-"};
Rcpp::DataFrame res = Rcpp::DataFrame::create(
Rcpp::Named("rname") = w_rname,
Rcpp::Named("strand") = w_strand,
Rcpp::Named("start") = start,
Rcpp::Named("seq") = seq,
Rcpp::Named("XM") = xm
);
return(res);
编辑 1(2021.10.19):
感谢大家的意见,我需要更多的时间来检查是否stringfish
可以使用,但我从 cpp11 包 vignettes 运行了一个稍微修改的测试,将它与 std::vector
进行比较.这是代码和结果(显示 std::vector<int>
仍然更快,尽管它必须在返回时被 Rcpp::wrap
ped):
Rcpp::cppFunction('
#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]
std::vector<int> stdint_grow_(SEXP n_sxp) {
R_xlen_t n = REAL(n_sxp)[0];
std::vector<int> x;
R_xlen_t i = 0;
while (i < n) {
x.push_back(i++);
}
return x;
}')
library(cpp11test)
grid <- expand.grid(len = 10 ^ (0:7), pkg = c("cpp11", "stdint"), stringsAsFactors = FALSE)
b_grow <- bench::press(.grid = grid,
{
fun = match.fun(sprintf("%sgrow_", ifelse(pkg == "cpp11", "", paste0(pkg, "_"))))
bench::mark(
fun(len)
)
}
)[c("len", "pkg", "min", "mem_alloc", "n_itr", "n_gc")]
print(b_grow, n=Inf)
# A tibble: 12 × 6
len pkg min mem_alloc n_itr n_gc
<dbl> <chr> <bch:tm> <bch:byt> <int> <dbl>
1 100 cpp11 1.9µs 1.89KB 9999 1
2 1000 cpp11 6.1µs 16.03KB 9999 1
3 10000 cpp11 58.11µs 256.22KB 7267 12
4 100000 cpp11 488.15µs 2MB 815 11
5 1000000 cpp11 4.34ms 16MB 88 14
6 10000000 cpp11 97.39ms 256MB 4 5
7 100 stdint 1.6µs 2.93KB 10000 0
8 1000 stdint 3.36µs 6.45KB 9998 2
9 10000 stdint 19.87µs 41.6KB 9998 2
10 100000 stdint 181.88µs 393.16KB 2571 4
11 1000000 stdint 1.91ms 3.82MB 213 3
12 10000000 stdint 36.09ms 38.15MB 9 1
编辑 2:
std::vector<std::string>
比 cpp11::writable::strings
稍慢在这些测试条件下,但内存效率更高:
Rcpp::cppFunction('
#include <Rcpp.h>
using namespace Rcpp;
//[[Rcpp::export]]
std::vector<std::string> stdstr_grow_(SEXP n_sxp) {
R_xlen_t n = REAL(n_sxp)[0];
std::vector<std::string> x;
R_xlen_t i = 0;
while (i++ < n) {
std::string s (i, 33);
x.push_back(s);
}
return x;
}')
cpp11::cpp_source(code='
#include "cpp11/strings.hpp"
[[cpp11::register]] cpp11::writable::strings cpp11str_grow_(R_xlen_t n) {
cpp11::writable::strings x;
R_xlen_t i = 0;
while (i++ < n) {
std::string s (i, 33);
x.push_back(s);
}
return x;
}
')
library(cpp11test)
grid <- expand.grid(len = 10 ^ (0:5), pkg = c("cpp11str", "stdstr"), stringsAsFactors = FALSE)
b_grow <- bench::press(.grid = grid,
{
fun = match.fun(sprintf("%sgrow_", ifelse(pkg == "cpp11", "", paste0(pkg, "_"))))
bench::mark(
fun(len)
)
}
)[c("len", "pkg", "min", "mem_alloc", "n_itr", "n_gc")]
print(b_grow, n=Inf)
# A tibble: 12 × 6
len pkg min mem_alloc n_itr n_gc
<dbl> <chr> <bch:tm> <bch:byt> <int> <dbl>
1 1 cpp11str 1.22µs 0B 10000 0
2 10 cpp11str 3.02µs 0B 9999 1
3 100 cpp11str 22µs 1.89KB 9997 3
4 1000 cpp11str 765.28µs 541.62KB 602 2
5 10000 cpp11str 66.69ms 47.91MB 8 0
6 100000 cpp11str 6.83s 4.62GB 1 0
7 1 stdstr 1.38µs 2.49KB 10000 0
8 10 stdstr 1.86µs 2.49KB 10000 0
9 100 stdstr 16.44µs 3.32KB 10000 0
10 1000 stdstr 898.23µs 10.35KB 511 0
11 10000 stdstr 73.55ms 80.66KB 7 0
12 100000 stdstr 7.54s 783.79KB 1 0
解决方案(2022.01.12):
...对于那些有类似问题的人。在这种特殊情况下,我不需要使用 std::vector
R.So 中的数据 XPtr
轻松解决了我的问题,将 BAM 加载时间缩短了近两倍。指针被创建:
std::vector<std::string>* seq = new std::vector<std::string>;
std::vector<std::string>* xm = new std::vector<std::string>;
然后存储为 data.frame
属性:
Rcpp::DataFrame res = Rcpp::DataFrame::create(
Rcpp::Named("rname") = w_rname,
Rcpp::Named("strand") = w_strand,
Rcpp::Named("start") = start
);
Rcpp::XPtr<std::vector<std::string>> seq_xptr(seq, true);
res.attr("seq_xptr") = seq_xptr;
Rcpp::XPtr<std::vector<std::string>> xm_xptr(xm, true);
res.attr("xm_xptr") = xm_xptr;
并在其他地方重用如下:
Rcpp::XPtr<std::vector<std::string>> seq((SEXP)df.attr("seq_xptr"));
Rcpp::XPtr<std::vector<std::string>> xm((SEXP)df.attr("xm_xptr"));
最佳答案
我们使用 std::vector<>
因为其强大的实现加上出色的性能(因为在任何比较中通常很难看到 std::vector<>
被打败)。但它使用自己的分配器来分配 R 之外的内存。
Rcpp
将对象返回给 R,这些对象与 R 创建的对象无法区分,因为它们使用 R 自己的数据结构,并且需要将最终拷贝复制到 R 使用、拥有和分配的内存中。如果您想使用当前接口(interface),根本无法绕过它将所有元素返回给 R。
R 现在有 ALTREP 允许替代/外部表示,所以你可以做一些不同的东西,但实际上这有点困难,因为 ALTREP 的 API 仍然有些不完整和变化。一些软件包是使用 ALTREP 构建的,但我现在没有想到适合您的特定用例。
编辑:对于您的字符串 vector ,您可以(并且应该)尝试 stringfish Travers 包装。它对字符串使用 ALTREP,这可能是您更大的性能障碍。对于 int
vector 我没有其他选择,但也许是最终的 memcpy
也没有那么痛苦(与内部处理不同的字符串相反,这使得它们更昂贵)。
关于c++ - 是否可以在不复制非常大的 std::vector 的情况下执行 Rcpp::wrap,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69612309/
我有一个“有趣”的问题,即以两种不同的方式运行 wine 会导致: $> wine --version /Applications/Wine.app/Contents/Resources/bin/wi
我制作了这个网络抓取工具来获取网页中的表格。我使用 puppeteer (不知道 crontab 有问题)、Python 进行清理并处理数据库的输出 但令我惊讶的是,当我执行它时 */50 * * *
JavaScript 是否被调用或执行取决于什么?准确地说,我有两个函数,它们都以相同的方式调用: [self.mapView stringByEvaluatingJavaScriptFromStri
我目前正在使用 python 做一个机器学习项目(这里是初学者,从头开始学习一切)。 只是想知道 statsmodels 的 OLS 和 scikit 的 PooledOlS 使用我拥有的相同面板数据
在使用集成对象模型 (IOM) 后,我可以执行 SAS 代码并将 SAS 数据集读入 .Net/C# 数据集 here . 只是好奇,使用 .Net 作为 SAS 服务器的客户端与使用 Enterpr
有一些直接的 jQuery 在单击时隐藏打开的 div 未显示,但仍将高度添加到导航中以使其看起来好像要掉下来了。 这个脚本工作正常: $(document).ready(funct
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 4 年前。 这里是 Java 新手,我正在使用 NetBeans 尝试一些简单的代
如果我将它切换到 Python 2.x,它执行 10。这是为什么? 训练逻辑回归模型 import keras.backend as
我有两个脚本,它们包含在 HTML 正文中。在第一个脚本中,我初始化一个 JS 对象,该对象在第二个脚本标记中引用。 ... obj.a = 1000; obj.
每当我运行该方法时,我都会收到一个带有数字的错误 以下是我的代码。 public String getAccount() { String s = "Listing the accounts";
我已经用 do~while(true) 创建了我的菜单;但是每次用户输入一个数字时,它不会运行程序,而是再次显示菜单!你怎么看? //我的主要方法 public static void main(St
执行命令后,如何让IPython通知我?我可以使用铃声/警报还是通过弹出窗口获取它?我正在OS X 10.8.5的iTerm上运行Anaconda。 最佳答案 使用最新版本的iTerm,您可以在she
您好,我刚刚使用菜单栏为 Swing 编写了代码。但是问题出现在运行中。我输入: javac Menu.java java Menu 它没有给出任何错误,但 GUI 没有显示。这是我的源代码以供引用:
我觉得这里缺少明显的东西,但是我看不到它写在任何地方。 我使用Authenticode证书对可执行文件进行签名,但是当我开始学习有关它的更多信息时,我对原样的值(value)提出了质疑。 签名的exe
我正在设计一个应用程序,它使用 DataTables 中的预定义库来创建数据表。我想对数据表执行删除操作,为此应在按钮单击事件上执行 java 脚本。 $(document).ready(functi
我是 Haskell 新手,如果有人愿意帮助我,我会很高兴!我试图让这个程序与 do while 循环一起工作。 第二个 getLine 命令的结果被放入变量 goGlenn 中,如果 goGlenn
我有一个用 swing 实现迷你游戏的程序,在主类中我有一个循环,用于监听游戏 map 中的 boolean 值。使用 while 实现的循环不会执行一条指令,如果它是唯一的一条指令,我不知道为什么。
我正在尝试开发一个连接到 Oracle 数据库并执行函数的 Java 应用程序。如果我在 Eclipse 中运行该应用程序,它可以工作,但是当我尝试在 Windows 命令提示符中运行 .jar 时,
我正在阅读有关 Java 中的 Future 和 javascript 中的 Promises 的内容。下面是我作为示例编写的代码。我的问题是分配给 future 的任务什么时候开始执行? 当如下行创
我有一个常见的情况,您有两个变量(xSpeed 和 ySpeed),当它们低于 minSpeed 时,我想将它们独立设置为零,并在它们都为零时退出。 最有效的方法是什么?目前我有两种方法(方法2更干净
我是一名优秀的程序员,十分优秀!