gpt4 book ai didi

c++ - 将 900 MB .csv 转换为 ROOT (CERN) TTree

转载 作者:行者123 更新时间:2023-11-28 00:14:06 26 4
gpt4 key购买 nike

我是编程和 ROOT (CERN) 的新手,所以请放轻松。简单地说,我想将 ~900 MB(11M 行 x 10 列).csv 文件转换为组织良好的 .root TTree。有人可以提供解决此问题的最佳方法吗?

这是一个带标题的示例数据行(它是 2010 年美国人口普查区人口和人口密度数据):

“人口普查县代码”,“人口普查区代码”,“人口普查 block 代码”,“县/州”,“ block 质心纬度(度)”,“ block 质心 W 经度(度)”,“ block 土地面积” (sq mi)","街区土地面积(sq km)","街区人口","街区人口密度(人/平方公里)"

1001,201,1000,Autauga AL,32.469683,-86.480959,0.186343,0.482626154,61,126.3918241

我已将到目前为止所写的内容粘贴到下面。

我在运行时特别想不通这个错误:“C:41:1: error: unknown type name ‘UScsvToRoot’”。

这可能真的很愚蠢,但是您如何读取 ROOT 中的字符串(用于读取县/州名称)?比如数据类型是什么?我只需要使用 char 吗?我在空白。

#include "Riostream.h"
#include "TString.h"
#include "TFile.h"
#include "TNtuple.h"
#include "TSystem.h"

void UScsvToRoot() {

TString dir = gSystem->UnixPathName(__FILE__);
dir.ReplaceAll("UScsvToRoot.C","");
dir.ReplaceAll("/./","/");
ifstream in;
in.open(Form("%sUSPopDens.csv",dir.Data()));

Int_t countyCode,tractCode,blockCode;
// how to import County/State string?
Float_t lat,long,areaMi,areaKm,pop,popDens;
Int_t nlines = 0;
TFile *f = new TFile("USPopDens.root","RECREATE");
TNtuple *ntuple = new TNtuple("ntuple","data from csv file","countyCode:tractCode:blockCode:countyState:lat:long:areaMi:areaKm:pop:popDens");

while (1) {
in >> countyCode >> tractCode >> blockCode >> countyState >> lat >> long >> areaMi >> areaKm >> pop >> popDens;
if (!in.good()) break;
ntuple->Fill(countyCode,tractCode,blockCode,countyState,lat,long,areaMi,areaKm,pop,popDens);
nlines++;
}

in.close();

f->Write();
}`

最佳答案

好的,所以我要试一试,但要先发表一些评论:

关于 root 的问题,你应该强烈考虑去 root homepage然后去论坛。虽然 stackoverflow 是一个很好的信息来源,但关于根框架的具体问题更适合放在根主页上。

如果您是 root 新手,您应该看看 tutorial page ;它有许多关于如何使用 root 的各种功能的示例。

您还应该使用 root reference guide有关于所有根类的文档。

对于您的代码:如果您查看 documentation对于你正在使用的类 TNtuple 你会在描述中看到它明确地说:

A simple tree restricted to a list of float variables only.

因此尝试将任何字符串存储到 TNtuple 中是行不通的。为此,您需要使用更通用的类 TTree

要读取文件并将信息存储在树中,您有两种选择:您可以手动定义分支,然后在遍历文件时填充树:

void UScsvToRoot() {
TString dir = gSystem->UnixPathName(__FILE__);
dir.ReplaceAll("UScsvToRoot.C","");
dir.ReplaceAll("/./","/");
ifstream in;
in.open(Form("%sUSPopDens.csv",dir.Data()));

Int_t countyCode,tractCode,blockCode;
char countyState[1024];
Float_t lat,lon,areaMi,areaKm,pop,popDens;
Int_t nlines = 0;
TFile *f = new TFile("USPopDens.root","RECREATE");
TTree *tree = new TTree("ntuple","data from csv file");

tree->Branch("countyCode",&countyCode,"countyCode/I");
tree->Branch("tractCode",&tractCode,"tractCode/I");
tree->Branch("blockCode",&blockCode,"blockCode/I");
tree->Branch("countyState",countyState,"countyState/C");
tree->Branch("lat",&lat,"lat/F");
tree->Branch("long",&lon,"lon/F");
tree->Branch("areaMi",&areaMi,"areaMi/F");
tree->Branch("areaKm",&areaKm,"areaKm/F");
tree->Branch("pop",&pop,"pop/F");
tree->Branch("popDens",&popDens,"popDens/F");

while (1) {
in >> countyCode >> tractCode >> blockCode >> countyState >> lat >> lon >> areaMi >> areaKm >> pop >> popDens;
if (!in.good()) break;
tree->Fill();
nlines++;
}

in.close();

f->Write();
}

命令 TTree::Branch 基本上告诉 root

  • 您的分支机构名称
  • root 将从中读取信息的变量地址
  • 分支的格式

包含字符串信息的 TBranchC 类型,如果您查看 TTree documentation意味着

  • C : a character string terminated by the 0 character

注意我给了字符数组一定的大小,你应该自己看看什么大小适合你的数据。

您可以使用的另一种可能性是取消 ifstream 并简单地使用 TTreeReadFile 方法,您可以像这样使用

#include "Riostream.h"
#include "TString.h"
#include "TFile.h"
#include "TTree.h"
#include "TSystem.h"

void UScsvToRoot() {

TString dir = gSystem->UnixPathName(__FILE__);
dir.ReplaceAll("UScsvToRoot.C","");
dir.ReplaceAll("/./","/");

TFile *f = new TFile("USPopDens.root","RECREATE");
TTree *tree = new TTree("ntuple","data from csv file");
tree->ReadFile("USPopDens.csv","countyCode/I:tractCode/I:blockCode/I:countyState/C:lat/F:lon/F:areaMi/F:areaKm/F:pop/F:popDens/F",',');
f->Write();
}

您可以阅读 section on TTress in the root users guide on 了解更多信息;除其他外,它还有an example using TTree:ReadFile .

如果有帮助请告诉我

关于c++ - 将 900 MB .csv 转换为 ROOT (CERN) TTree,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31420191/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com