gpt4 book ai didi

sql - Matlab: `splitapply` 参数与表 VariableNames 的显式或命名关联

转载 作者:太空宇宙 更新时间:2023-11-03 20:05:40 25 4
gpt4 key购买 nike

在 Matlab 中执行常见 SQL 操作所需的额外代码和簿记方面,我一直在咬紧牙关。下面是一个典型的 SQL 代码模式示例,用于生成汇总数据表的指标 tDat :

SELECT vGrouping, MEAN( x - y ) AS rollup1, VAR(y+z) AS rollup2
INTO tRollups FROM tDat GROUP BY vGrouping

我的 SQL 有点生疏,但 SQLers 应该清楚总体思路。这是 Matlab 的等价物:

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Calculate summary metrics for each group of data
[vGroup,grps] = findgroups(tDat.vGrouping)
fRollup = @(a,b,c)[ mean(a-b) var(b+c) ] % Calculates summary metric
rollups = splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup )

% Code pattern 1 to assemble results
tRollups = [ array2table( grps , 'VariableNames',{'group'} ) ...
array2table( rollups , ...
'VariableNames',{'rollup1','rollup2'} ) ]

% Code pattern 2 to assemble results
tRollups = array2table( [grps rollups], ...
'VariableNames',{'group','rollup1','rollup2'} )

这不是一个公平的比较,因为 Matlab 代码包含数据设置,以及用于组装摘要指标的两种可能的代码模式。此外,我添加了注释——不是为了让 Matlab 代码更庞大,而是因为它太忙了,需要一些认知路标来帮助阅读。

撇开代码量不谈,然而,令我烦恼的一件事是 fRollup 中的汇总表达式与输入或输出数据列的名称没有显式关联。参数是伪参数,实际输入数据列来自 tDatsplitapply 中指定调用。与 fRollup 参数的关联是位置性的,因此字段/变量名称本身无法强制执行正确的关联。同样,tRollups 中的输出列在 array2table 调用中指定,再次在位置上与 fRollup 相关联输出。

这使得在 Matlab 代码中很难看到 SQL 语句中相当简单的关系。是否有替代模式或设计习惯没有这个缺点,但希望不会招致太多其他缺点?

AFTERNOTE:出于某种原因,即使以下内容没有解决 splitapply 的命名/显式关联输入/输出参数与实际输入/输出变量,我仍然发现更容易看到关系。代码看起来确实不那么嘈杂。关键是函数fRollup用于在数据上生成摘要指标现在返回多个输出,而不是将它们捆绑到单个阵列输出中。这允许我明确命名标量的属性 struct ssRollups作为任务的目标。我不需要对表格进行各种转换,使用额外的代码来指定 VariableNames , 只是为了将结果与已识别的组连接起来。相反,组身份开始只是另一个属性grps在同一struct ( ssRollups ) 作为 splitapply结果——实际上,它是带来 struct 的第一个属性存在。

% File tmp.m
%-----------
function tmp

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Find the groups
[ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

% Calculate summary metrics for each group of data
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
splitapply( @fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display use nice table formatting
struct2table( ssRollups )

end % function tmp

function [rollup1 rollup2] = fRollup(a,b,c)
rollup1 = mean(a-b);
rollup2 = var(b+c);
end % function fRollup

然而,作为一个多输出函数,fRollup似乎更适合非匿名功能。对我来说,它实际上似乎更好地记录了多个输出,尽管代码不太紧凑。这可能只是其中一种情况,其中更紧凑的可读性更差,导致数据关系更难查看。但是,它确实需要将整个代码段都变成一个函数(在本例中为 tmp),除非您不介意打破 fRollup。进入它自己的功能和m文件。我不想在我的文件系统中乱放如此微小的片段函数,这些函数本来是要在一个地方使用的。

最佳答案

这个“答案”并不直接处理实际输入/输出变量与提供给 splitapply 的函数句柄参数之间的显式命名关联。但是,它显着简化了初始示例中的代码,希望能够更清楚地看到函数参数与输入/输出变量之间的关系。该解决方案最初包含在问题的 AFTERNOTE 中。由于似乎不会很快出现更好的答案,因此我决定将其作为答案。它使用 dealsplitapply 实现匿名多输出函数,以用于由其分组参数描述的数据组。

% Create test data
tDat = array2table( floor(10*rand(5,3)) , ...
'VariableNames',{'x','y','z'} );
tDat.vGrouping = ( rand(5,1) > 0.5 )

% Find the groups
[ vGroup, ssRollups.grps ] = findgroups(tDat.vGrouping)

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display use nice table formatting
struct2table( ssRollups )

在出现更好的解决方案之前,这种方法将是我使用 splitapply 的习惯用法。

这是一个变体,它使用表变量作为 splitapply 的输出。这在使用多个分组变量时可能更方便,因为 findgroups 会将分组变量名称传递给 LHS 上的输出变量 tRollups:

% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
'VariableNames',{'x','y','z'} );
tDat = [ tDat ...
array2table( rand(8,2)>0.5 , ...
'VariableNames',{'vGrpng1','vGrpng2'} ) ];

% Find the groups
[ vGroup, tRollups ] = findgroups(tDat(:,{'vGrpng1','vGrpng2'}));

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ tRollups.rollup1 tRollups.rollup2 ] = ...
splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

tRollups

这是一个使用多个分组变量并使用标量结构而不是表来输出 findgroupsplitapply 的版本:

% Create test data
tDat = array2table( floor(10*rand(8,3)) , ...
'VariableNames',{'x','y','z'} );
tDat.vGrpng1 = rand(8,1)>0.5 ;
tDat.vGrpng2 = rand(8,1)>0.5

% Find the groups
[ vGroup, ssRollups.vGrpng1, ssRollups.vGrpng2 ] = ...
findgroups( tDat.vGrpng1, tDat.vGrpng2 );

% Calculate summary metrics for each group of data
fRollup = @(a,b,c) deal( mean(a-b), var(b+c) )
[ ssRollups.rollup1 ssRollups.rollup2 ] = ...
splitapply( fRollup, tDat(:,{'x','y','z'}), vGroup );

% Display using nice table formatting
struct2table( ssRollups )

关于sql - Matlab: `splitapply` 参数与表 VariableNames 的显式或命名关联,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50167001/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com