- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对 C++ 很陌生,所以很抱歉,如果我问一些愚蠢的问题,但我在网上找不到答案(只有一篇引用 python ( Can mmap and gzip collaborate? ) 的帖子),试图看看是否可以通过 mmap 读取 .GZ 文件() 函数(如下: Fast textfile reading in c++ )以便对文件进行一些操作并将其写入另一个文件。我需要根据某些列/字段值仅保留原始行和列的一部分,以便稍后检索它们并与来自不同主题的其他类似文件进行比较,以便提取相似性/差异。这些文件非常大(最大 10GB .GZ),因此我尝试对 GZIP 文件使用快速比较方法。它更多的是与其他方法的“性能比较”。这是代码(抱歉,它很长,我认为很糟糕):
#include <algorithm>
#include <iostream>
#include <cstring>
#include <vector>
#include <typeinfo>
// for mmap:
#include <sys/mman.h>
#include <sys/stat.h>
#include <fcntl.h>
//for writefile
#include <fstream>
template <int N>
void emptyArray( char (&arrayName) [N] ) {
std::fill( std::begin( arrayName ), std::end( arrayName ), 0 );
}
const char* map_file(const char* fname, size_t& length);
int main() {
//prende la dimensione del file da aprire
size_t length;
auto f = map_file("myfile.vcf", length);
auto l = f + length;
uintmax_t m_numLines = 0;
std::vector<int> v0;
std::vector<int> v1;
std::vector<int> v2;
for (int i=1; i<length; i++) {
//vettore di posizioni # in prima posizione di una linea
if (f[i] == '#' && f[i-1] == '\n') v0.push_back(i);
//vettore di nuove linee
if (f[i] == '\n') v1.push_back(i+1);
}
std::vector<int> inter;
set_intersection(v0.begin(), v0.end(),
v1.begin(), v1.end(),
back_inserter(inter));
v1.erase(set_difference(v1.begin(), v1.end(),
inter.begin(), inter.end(),
v1.begin()), v1.end());
v1.pop_back();
char chromArray[3];
char posArray[10];
char refArray[50];
char altArray[50];
char qualityArray[10];
char gtArray[4];
char gqxArray[5];
char dpArray[5];
char adArray[10];
//LOOP per NUM RIGA
//apro loop su vettore NL (non #)
for (int nl =0; nl<v1.size(); nl++) {
//CONTATORI
int ncol = 0;
int chri = 0;
int posi = 0;
int refi = 0;
int alti = 0;
int qi = 0;
int formatHeaderCount = 0;
int formatLastCount = 0;
int numGT = 0;
int gti = 0;
int numGQX = 0;
int gqxi = 0;
int numDP = 0;
int dpi = 0;
int numAD = 0;
int adi = 0;
std::string chromValue;
emptyArray(chromArray);
std::string posValue;
emptyArray(posArray);
std::string refValue;
emptyArray(refArray);
std::string altValue;
emptyArray(altArray);
std::string quality;
emptyArray(qualityArray);
std::string gtValue;
emptyArray(gtArray);
std::string gqxValue;
emptyArray(gqxArray);
std::string dpValue;
emptyArray(dpArray);
std::string adValue;
emptyArray(adArray);
for( int start=v1[nl]; start<v1[nl+1]; start++ ) {
if (f[start] == '\t') ncol++;
if (ncol == 0) {
if ( f[start] != '\t' && f[start] != 'c' && f[start] != 'h' && f[start] != 'r' ) {
chromArray[chri] = f[start];
chri++;
}
}
if (ncol == 1) {
if ( f[start] != '\t' ) {
posArray[posi] = f[start];
posi++;
}
}
if (ncol == 3) {
if ( f[start] != '\t' ) {
refArray[refi] = f[start];
refi++;
}
}
if (ncol == 4) {
if ( f[start] != '\t' ) {
altArray[alti] = f[start];
alti++;
}
}
if (ncol == 5) {
if ( f[start] != '\t' ) {
qualityArray[qi] = f[start];
qi++;
}
}
if (ncol == 8) {
if ( f[start] != '\t' ) {
if (f[start] == ':') formatHeaderCount++;
if (f[start] == 'G' && f[start+1] == 'T' && f[start+2] == ':' ) {
numGT = formatHeaderCount;
}
if (f[start] == ':' && f[start+1] == 'G' && f[start+2] == 'Q' && f[start+3] == 'X' && f[start+4] == ':') {
numGQX = formatHeaderCount;
}
if (f[start] == ':' && f[start+1] == 'D' && f[start+2] == 'P' && ( f[start+3] == ':' || ( f[start+3] == 'I' && f[start+4] == ':') )) {
numDP = formatHeaderCount;
}
if (f[start] == ':' && f[start+1] == 'A' && f[start+2] == 'D' && f[start+3] == ':' ) {
numAD = formatHeaderCount;
}
}
}
if (ncol == 9) {
if ( f[start] != '\t' ) {
if (f[start] == ':') formatLastCount++;
if (formatLastCount == numGT) {
if ( f[start] != ':' ) {
gtArray[gti] = f[start];
gti++;
}
}
if (formatLastCount == numGQX) {
if ( f[start] != ':' ) {
gqxArray[gqxi] = f[start];
gqxi++;
}
}
if (formatLastCount == numDP) {
if ( f[start] != ':' ) {
dpArray[dpi] = f[start];
dpi++;
}
}
if (formatLastCount == numAD) {
if ( f[start] != ':' ) {
adArray[adi] = f[start];
adi++;
}
}
}
}
}
chromValue.append(chromArray);
posValue.append(posArray);
refValue.append(refArray);
altValue.append(altArray);
quality.append(qualityArray);
gtValue.append(gtArray);
gqxValue.append(gqxArray);
dpValue.append(dpArray);
adValue.append(adArray);
if (gqxi < 2 || dpi < 2 || qi < 2) continue;
if (stoi(gqxValue) < 30) continue;
std::ofstream myfile ("myRes.txt", std::ios_base::app);
if (myfile.is_open()) {
myfile <<
nl << "\t" <<
chromValue << "-" << posValue << "-" << refValue << "-" << altValue << "\t" <<
gtValue << "\t" <<
gqxValue << "\t" <<
quality << "\t" <<
dpValue << "\t" <<
adValue <<
"\n";
myfile.close();
} else {
std::cout << "Unable to open file" << '\n';
}
}
}
void handle_error(const char* msg) {
perror(msg);
exit(255);
}
const char* map_file(const char* fname, size_t& length) {
int fd = open(fname, O_RDONLY);
if (fd == -1)
handle_error("open");
struct stat sb;
if (fstat(fd, &sb) == -1)
handle_error("fstat");
length = sb.st_size;
const char* addr = static_cast<const char*>(mmap(NULL, length, PROT_READ, MAP_PRIVATE, fd, 0u));
if (addr == MAP_FAILED)
handle_error("mmap");
return addr;
}
现在,我知道我可以使用以下命令打开 GZIP 文件:
#include <fstream>
#include <iostream>
#include <sstream>
#include <boost/iostreams/filtering_streambuf.hpp>
#include <boost/iostreams/copy.hpp>
#include <boost/iostreams/filter/gzip.hpp>
//NB: devo linkare a libreria boost zlib in comando: c++ --std=c++11 -L/opt/X11/lib -lboost_iostreams -lz gzread.cpp -o gzread
using namespace std;
using namespace boost::iostreams;
int main()
{
ifstream file("myfile.gz", ios_base::in | ios_base::binary);
filtering_streambuf<input> inbuf; //iniziallizzo filtering_streambuf inbuf
inbuf.push(gzip_decompressor()); //ci metto dentro decompressore GZIP (se file GZIP)
inbuf.push(file); //ci metto dentro file
//Convert streambuf to istream
std::istream instream(&inbuf);
//Iterate lines
std::string line;
string chr;
while(std::getline(instream, line)) {
istringstream iss(line); // string stream della linea
int i = 0;
while (getline(iss, line, t)) { // read first part up to comma, ignore the comma (il terzo arfomento di getline gli indica dove fermarsi, se assente si ferma a newline)
if (i == 2) cout << line << "n";
++i;
}
}
// copy(inbuf, cout); //copio in stdout
}
这里是文件行的示例:
chr1 1246301 。 A C 4 OffTarget;LowGQX SNVSB=0.0;SNVHPOL=2;phyloP=1.096;CSQT=1|ACAP3|NM_030649.2|upstream_gene_variant,1|PUSL1|NM_153339.1|missense_variant,1|CPSF3L|NM_001256456.1|downstream_gene_variant GT: GQ:GQX:DP:DPF:AD:PL 0/1:3:0:1:0:0,1:37,3,0
有没有办法将它们结合起来?或者甚至其他方法,如果它们可以更“性能”。
非常感谢您的建议!
最佳答案
您可以使用 zlib 的 inflate()
函数读取内存映射的 gzip 文件。 (阅读 zlib.h 中的文档。)
但是无论是从文件读取还是从内存映射读取,都无法跳转未压缩的数据。未压缩的数据必须顺序处理,或者顺序保存以供以后的随机访问处理。
关于C++ mmap到 "fast"读取与gzip文件的耦合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55288310/
我遇到以下问题。我想读取一个包含数百万行和数百列的大型 csv。我想向下转换列的数据类型。我的方法是读取 csv,然后使用 pd.to_numeric() 对其进行向下转换。我不知道列数及其类型。在读
目前,我从 SQL server (2008) 数据库获取数据。 cyurrent的方法是使用DataTable,然后将其传递并使用。 if (parameters != null)
我有以下问题。我有一个巨大的 csv 文件,想用多处理加载它。对于一个包含 500000 行和 130 列不同数据类型的示例文件,Pandas 需要 19 秒。我试过 dask 因为我想多处理阅读。但
是否有关于用于序列化各种 MFC 数据结构的二进制格式的明确文档?我已经能够在十六进制编辑器中查看我自己的一些类,并使用 Java 的 ByteBuffer 类读取它们(使用自动字节顺序转换等)。 但
我正在使用 Selenium 进行测试,我们用 HTML 文件编写测试用例,并用它们制作测试套件,我们的要求是编写足够健壮的测试用例,以根据测试环境改变自身。 为此,我不希望在 HTML 脚本本身中包
我需要一个 JavaScript 代码来读取存储为 .txt 文件的字典(或者也可以保存为任何其他类型的文件。它也可以在线获得)并将其内容存储在一个变量中。我不能找到一种让 JavaScript 像
我正在尝试遍历包含 SSH 登录和其他日志的日志文本文件。 程序正在返回 SSH 登录的总数。 我的解决方案确实有效,但似乎有点慢(在 200mo 文件上大约需要 3.5 秒)。我想知道是否有任何方法
我正在将大量数据从一个电子表格复制到工作簿中的其他 160 个电子表格。目前,Excel (2013) 遇到错误,因为它没有足够的资源来完成操作。 我的目标是将工作表 4 中 V13:XI1150 范
我正在尝试读取一个有 1147 行的文本文件。下面的代码仅读取第 1050-1147 行。我的目标是读取整个文件并提取位于不同行的特定值以在脚本中使用。一个示例是包含“BlockList: 2”的行中
我正在为游戏编写解释器。用户将其移动输入解释器,程序执行该移动。 现在我想为每个决定实现一个时间限制。玩家不应该能够思考超过 30 秒来写一个移动并按下回车。 call_with_time_limit
以this file例如,我正在尝试读取 data.frame 中的数据。来自 the doc (pdf 文件,表 1),它遵循一些 fortran 约定。我尝试了以下但收效甚微: dir 0' 将
我正在使用 R 阅读 Outlook 附件。我的引用在这里:Download attachment from an outlook email using R 这是我的电子邮件的截图: 这每天都会发送
我不会从表格中读取行来将主题放在列表中 php脚本 $url_obj='http://'.$host.':8069/xmlrpc/object'; $sock=new xmlrpc_client($u
我有一个这样的 csv 文件: id,name,value 1,peter,5 2,peter\,paul,3 我如何读取此文件并告诉 R "\," 不表示新列,仅表示 ","。 我必须添加该文件
我正在尝试读取 ~/Library/Preferences/com.apple.mail.plist (在 Snow Leopard 上)以获取电子邮件地址和其他信息以进入“关于”对话框。我使用以下代
This question already has answers here: How do I use floating-point division in bash? (19个回答) 5个月前关闭
本练习的目标是读取输入文件并将其存储到表中,然后验证输入中的某些字段并输出任何错误记录。我需要读取并存储每个策略组,以便表中一次仅存储 5 条记录,而不是整个文件。 所以我需要读取一个包含 5 条记录
据我了解,LWT 插入始终以 SERIAL 一致性级别完成。如果为 true,这是否意味着读取作为 LWT 插入的行可以安全地以 ANY 的一致性级别读取? 换句话说,我假设 LWT 插入是完全一致的
我看到很多很多通过java脚本读取cookie的函数,但我只想在变量中使用它一次,我是JS新手。 这是我的代码 var TheNumber = (Math.random() + '') * 10000
我正在使用 asp.net 和 C#。我在服务器上部署了一个应用程序[已发布],现在我想查看该网站的代码,据我所知,我可以阅读程序集来查看代码。 请告诉我如何实现它。 提前致谢。 最佳答案 您可以使用
我是一名优秀的程序员,十分优秀!