sql - SAS层次结构总和-6ren

sql - SAS层次结构总和

转载作者：行者123 更新时间：2023-12-02 08:13:31

25

4

我有一个带有分层编码表变量的数据集。层级逻辑由LEVEL变量和CODE字符变量的前缀结构决定。有6个(码长从1到6)“聚合”级和终端级(码长10个字符)。

我需要更新节点变量(终端节点的计数 - 聚合级别不计入“更高”聚合，仅计入终端节点) - 所以一个级别的计数总和，例如每个级别 5 的总数计数与每个 6 级相同。我需要计算(总结)“更高”级别节点的权重。

注意:我偏移了输出表的 NODES 和 WEIGHT 变量，这样您就可以更好地理解我在说什么(只需将每个偏移量中的数字相加即可得到相同的值)。

EDIT1:同一代码可以有多个观察结果。一个独特的观察结果是 3 个变量 code + var1 + var2 的组合。

输入表:

ID   level code         var1  var2  nodes  weight  myIndex
1    1     1            .     .     999    999     999
2    2     11           .     .     999    999     999
3    3     111          .     .     999    999     999
4    4     1111         .     .     999    999     999
5    5     11111        .     .     999    999     999
6    6     111111       .     .     999    999     999
7   10     1111119999   01    1     1      0.1     105,5
8   10     1111119999   01    2     1      0.1     109,1
9    6     111112       .     .     999    999     999
10  10     1111120000   01    1     1      0.5      95,0
11   5     11119        .     .     999    999     999
12   6     111190       .     .     999    999     999
13  10     1111901000   01    1     1      0.1      80,7
14  10     1111901000   02    1     1      0.2     105,5

期望的输出表:

ID   level code         var1  var2  nodes    weight              myIndex
1    1     1            .     .     5        1.0                  98,1
2    2     11           .     .     5        1.0                  98,1
3    3     111          .     .     5        1.0                  98,1
4    4     1111         .     .     5        1.0                  98,1
5    5     11111        .     .       3          0.7              98,5
6    6     111111       .     .         2            0.2         107,3
7   10     1111119999   01    1           1               0.1    105,5  
8   10     1111119999   01    2           1               0.1    109,1
9    6     111112       .     .         1            0.5          95,0
10  10     1111120000   01    1           1               0.5     95,0
11   5     11119        .     .       2          0.3              97,2
12   6     111190       .     .         2            0.3          97,2
13  10     1111901000   01    1           1               0.1     80,7
14  10     1111901000   02    1           1               0.2    105,5

这是我想出的代码。它就像我想要的那样工作，但是伙计，它真的很慢。我需要更快的方法，因为这是 Web 服务的一部分，必须根据请求“立即”运行。欢迎任何关于加速代码或任何其他解决方案的建议。

%macro doit;

data temporary;
    set have;
run;

%do i=6 %to 2 %by -1;
    %if &i = 6 %then %let x = 10;
    %else %let x = (&i+1);

    proc sql noprint;
        select count(code)
        into :cc trimmed
        from have
        where level = &i;

        select code
        into :id1 - :id&cc
        from have
        where level = &i;
    quit;

    %do j=1 %to &cc.;

        %let idd = &&id&j;

        proc sql;
        update have t1
            set nodes = (
                       select sum(nodes)
                       from temporary t2
                       where t2.level = &x and t2.code like ("&idd" || "%")),
            set weight = (
                       select sum(weight)
                       from temporary t2
                       where t2.level = &x and t2.code like ("&idd" || "%"))   
            where (t1.level = &i and t1.code like "&idd");
        quit;
    %end;
%end;
%mend doit;

基于@Quentin 解决方案的当前代码:

data have;
input ID level code : $10. nodes weight myIndex;
cards;
1    1  1            .   .    .
2    2  11           .   .    .
3    3  111          .   .    .
4    4  1111         .   .    .
5    5  11111        .   .    .
6    6  111111       .   .    .
7   10  1111110000   1   0.1  105.5
8   10  1111119999   1   0.1  109.1
9    6  111112       .   .    .
10  10  1111129999   1   0.5  95.0
11   5  11119        .   .    .
12   6  111190       .   .    .
13  10  1111900000   1   0.1  80.7
14  10  1111901000   1   0.2  105.5
;

data want (drop=_:);

    *hash table of terminal nodes;
    if (_n_ = 1) then do;
        if (0) then set have (rename=(code=_code weight=_weight));
        declare hash h(dataset:'have(where=(level=10) rename=(code=_code weight=_weight myIndex=_myIndex))');
        declare hiter iter('h');
        h.definekey('ID');
        h.definedata('_code','_weight','_myIndex');
        h.definedone();
    end;

    set have;

    *for each non-terminal node, iterate through;
    *hash table of all terminal nodes, looking for children;
    if level ne 10 then do;
        call missing(weight, nodes, myIndex);

        do _n_ = iter.first() by 0 while (_n_ = 0);
            if trim(code) =: _code then do;  
                weight=sum(weight,_weight);
                nodes=sum(nodes,1);
                myIndex=sum(myIndex,_myIndex*_weight);
            end;
            _n_ = iter.next();
        end;
        myIndex=round(myIndex/weight,.1);
    end;
    output;
run;

最佳答案

这是另一种哈希方法。

这不是使用散列对象进行笛卡尔连接，而是将每个级别 10 节点的节点和权重添加到 6 个适用的父节点中的每一个。这可能比 Quentin 的方法稍微快一些，因为没有冗余的哈希查找。

在构造哈希对象时，它比 Quentin 的方法需要更长的时间，并且使用更多的内存，因为每个终端节点使用不同的键添加 6 次并且经常必须更新现有条目，但之后每个父节点只必须查找自己的个人统计数据，而不是遍历所有终端节点，这样可以节省大量资金。

加权统计数据也是可能的，但您必须更新两个循环，而不仅仅是第二个循环。

data want;
if 0 then set have;
dcl hash h();
h.definekey('code');
h.definedata('nodes','weight','myIndex');
h.definedone();
length t_code $10;
do until(eof);
  set have(where = (level = 10)) end = eof;
  t_nodes = nodes;
  t_weight = weight;
  t_myindex = weight * myIndex;
  do _n_ = 1 to 6;
    t_code = substr(code,1,_n_);
    if h.find(key:t_code) ne 0 then h.add(key:t_code,data:t_nodes,data:t_weight,data:t_myIndex);
    else do;
      nodes + t_nodes;
      weight + t_weight;
      myIndex + t_myIndex;
      h.replace(key:t_code,data:nodes,data:weight,data:MyIndex);
    end;
  end;
end;
do until(eof2);
  set have end = eof2;
  if level ne 10 then do;
    h.find();
    myIndex = round(MyIndex / Weight,0.1);
  end;
  output;
end;
drop t_:;
run;

关于sql - SAS层次结构总和，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44035512/

25

4

0

文章推荐： r - 添加新的回归线，但保留 R 中先前运行的回归线

文章推荐： Delphi - 销毁组件

文章推荐： neural-network - 训练神经网络的 MSE 成本函数

sas - 打开 SAS 数据集以从 .sas 程序中查看
有没有办法从 .sas 文件中打开 SAS 数据集进行查看(即在“ViewTable”窗口中)？最佳答案我认为这会做你想做的: dm log "vt sashelp.air"; 只需更改 "sas
sas - 如何在 SAS 程序中使 SAS 数据集只读？
如何在 SAS 程序中将 sas 数据表 (sas7bdat) 设置为只读？ — 即使在 session 之间，该表也必须保持只读状态，尤其是当另一个用户注册该库并尝试写入数据集时。一旦创建了这些表，
sas - SAS 中的日期错误
如何将 mmddyy 变量转换为 date9 变量？例如，假设我们有以下内容: x = 05/10/2011 我希望 x 的形式为 10May2011。所以我做了以下事情: xnew =
sas - 将文本文件导入 SAS
我正在使用以下代码将文本文件导入 SAS: proc import datafile="C:\Users\Desktop\data.txt" out=Indivs dbms=dlm replace;
sas - SAS 的自定义格式
您好，我有兴趣为我在 SAS 中生成的数据制作一些稍微复杂的自定义格式。我需要它是数字类型。格式 1 0="-" >0="%" %" 即 0 >>>>>>> - .74 >>>>> 74% -.65
sas - 从一行文本文件中读取数据到 SAS
我正在尝试弄清楚如何读取文本文件 (300mb) 中以逗号分隔但数据位于一行中的数据。数据看起来像这样: a,b,c,d,e,f,g,h,i,j,k,l,m,false,false,true,1,3
sas - 使用 SAS 将 SAS 数据导出到 FTP
我想将 SAS 数据集从 SAS 导出到 FTP。我可以使用以下命令导出 csv 文件(或 txt 文件): %macro export_to_ftp(dsn= ,outfile_name= ); F
sas - SAS 中的编译与执行
这个问题在 SAS forum 上讨论过，与会者最终同意不同意。问题很简单:SAS 在编译时为所有变量分配一个缺失值UNLESS一个变量出现在sum 语句中(在这种情况下，SAS 在编译时分配了一个
sas - SAS 中不匹配的引号问题
众所周知，SAS需要特别注意句子中的引号。例如 %let quoted="I'd like to"; data temp; set temp; quoted=""ed"; r
sas - SAS 中的正态性检验
我对 SAS 完全陌生，我很绝望。所以，我的代码是: DATA abc; INPUT AA BB CC DD EE; CARDS; ; RUN; PROC PRINT DATA = abc; T
sas - 设置截止期 SAS
我在使用如下所示的数据集时遇到问题。它是不同位置/周的库存计数: data have; input itm location $ week inv; cards; 3 x 1 30 3 x 2
sas - 我们如何区分 PC SAS 和 SAS 服务器
我们需要确定我们现在使用的是什么类型的 SAS(pc SAS 或服务器 SAS)。有什么方法可以找出我们使用的是什么 SAS，是指 PC SAS 还是 SAS Server？最佳答案使用“proc
sas - 在数据集的行内排名 [sas]
假设我有一个包含 n 行和 p 列的数据集，这样数据集中的每个条目都包含一个实数。我正在寻找一种方法来对每行中的 p 列进行排名。这个排名的输出应该是一个长度 - p 的排名向量，它说明了关系。所以
sas - 打印带分隔符的所有列 SAS
我正在尝试打印一个带分隔符的文件，而不必指定所有列。我可以接近，但数字列总是被引用: DATA _NULL_; SET SASHELP.CARS (obs = 5 keep = Make Mode
sas - SAS 一次可以读取的最大文件大小是多少？
SAS 软件可以成功读取的最大文件大小是多少。(不考虑硬件限制) 提前致谢。最佳答案引用最近播放的电视广告，答案是“无限加 1”。 SAS 在读取操作期间对文件的大小没有任何限制，尽管您可能会遇到
sas - SAS 中的非线性多元回归
我有一个包含变量 y、x1 和 x2 的数据集。我想找到适合模型的方程式: y = k1*x1c1 + k2 *x2c2 通过找到 k1、c1、k2 和 c2。我如何在 SAS 中执行此操作？具体来说
sas - SAS-定义字母数组
SAS中是否有用于定义数组中字母序列的简写？许多语言都具有轻松执行此操作的机制，我想SAS也是如此，尽管我找不到它的引用。例如，在R中，我可以做 > x x [1] "a" "b" "c" "d
sas - SAS 中的多个哈希对象
我有两个 SAS 数据集。第一个相对较小，包含唯一的日期和相应的 ID: date dateID 1jan90 10 2jan90 15 3jan90 20 ... 第二个
sas - SAS 入门书
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
sas - SAS 中的逻辑函数来确定变量的特定值是否为数字？
我有一个主要是数值的变量，但是偶尔会有一个字符偷偷进入。因此，变量在 SAS 中存储为字符。我希望能够确定此字符变量中的各个值是否为数字。在知道哪些值是数字哪些是字符后，我想创建一个新的(数字)变量，

首页

博学

6Ren·AI

商城

sql - SAS层次结构总和