gpt4 book ai didi

performance - SAS:通过 proc 导入提高 do 循环的速度

转载 作者:行者123 更新时间:2023-12-01 01:03:06 25 4
gpt4 key购买 nike

我有超过 3400 个 CSV 文件,大小在 10kb 到 3mb 之间。每个 CSV 文件都有这个通用文件名:stockticker-Ret.csv哪里stockticker是类似于 AAPL、GOOG、YHOO 等的股票代码,并且在给定日期的每一分钟都有股票返回。我的 SAS 代码首先从 stockticker-Ret.csv 加载所有股票代码名称。 SAS 数据集中的文件。我遍历每个股票代码以加载适当的 .csv SAS 数据集中的文件 want并在 want 上应用一些数据步骤并存储最终数据集 want SAS 数据集中的每个股票代码 global .可以想象,这个过程需要很长时间。有没有办法改善我的DO LOOP下面的代码使这个过程更快?

/*Record in a sas dataset all the csv file name to extract the stock ticker*/
data yfiles;
keep filename;
length fref $8 filename $80;
rc = filename(fref, 'F:\data\');
if rc = 0 then do; did = dopen(fref);
rc = filename(fref); end; else do; length msg $200.; msg = sysmsg(); put msg=; did = .; end;
if did <= 0 then putlog 'ERR' 'OR: Unable to open directory.';
dnum = dnum(did);
do i = 1 to dnum; filename = dread(did, i); /* If this entry is a file, then output. */ fid = mopen(did, filename); if fid > 0 then output; end;
rc = dclose(did);
run;

/*store in yfiles all the stock tickers*/
data yfiles(drop=filename1 rename=(filename1=stock));
set yfiles;
filename1=tranwrd(filename,'-Ret.csv','');
run;

proc sql noprint;
select stock into :name separated by '*' from work.yfiles;
%let count2 = &sqlobs;
quit;


*Create the template of the desired GLOBAL SAS dataset;
proc sql;
create table global
(stock char(8), time_gap num(5), avg_ret num(5));
quit;

proc sql;
insert into global
(stock, time_gap,avg_ret)
values('',0,0);
quit;

%macro y1;
%do i = 1 %to &count2;
%let j = %scan(&name,&i,*);
proc import out = want datafile="F:\data\&j-Ret.csv"
dbms=csv replace;
getnames = yes;
run;


data want;
set want; ....

....[Here I do 5 Datasteps on the WANT sasfile]


/*Store the want file in a global SAS dataset that will contain all the stock tickers from the want file*/

data global;
set global want; run;

%end;
%mend y1;
%y1()

如您所见,全局 SAS 数据集每增加一次 want我存储在 global 中的数据集.

最佳答案

假设文件有一个共同的布局,你不应该用 PROC IMPORT 导入它们。或做循环。您应该使用一个数据步骤将它们全部读完。 IE:

data want;
length the_file $500;
infile "f:\data\*.csv" dlm=',' lrecl=32767 dsd truncover firstobs=2 filename=the_file;
input
myvar1 myvar2 myvar3 myvar4;
stock_ticker=scan(the_file,'\',-1); *or whatever gets you the ticker name;
run;

现在,如果它们没有相同的布局,或者 readin 有一些复杂性,您可能需要比这更复杂的输入语句,但几乎总是可以通过这种方式实现它。由于 IMPORT 的开销,具有大量 PROC IMPORT 的 Do 循环将始终效率低下。

如果您不想要文件夹中的每个 .csv 文件(并且无法为您想要的内容编写掩码),或者如果您有布局的子集,您可以使用 FILEVAR 选项从通用数据集。然后,如果需要,您可以分支到各种输入语句中。
data want;
set yfiles;
infile a filevar=filename;
if filevar [some rule] then do;
input ... ;
end
;else if ... then do;
input ... ;
end;
run;

关于performance - SAS:通过 proc 导入提高 do 循环的速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21291306/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com