python - 在Python/Pandas中创建部分SAS PROC Summary替换-6ren

python - 在Python/Pandas中创建部分SAS PROC Summary替换

转载作者：太空狗更新时间：2023-10-29 20:28:22

我们正在努力脱离SAS，转而使用Python/Pandas。但是，我们遇到的一件事是创建具有SAS例程灵活性的PROC SUMMARY(AKA PROC MEANS)的替代品。对于非SAS用户:PROC SUMMARY只是一个例程，该例程会生成一个表，该表包含数据集中“所有观察值或一组观察值内变量的描述性统计信息”，以解释SAS文档。我们的需求只是全部功能的一小部分-输出一个我们拥有的表:

能够将不同的统计信息应用于不同的列(现在仅计算，求和，平均值，加权平均值)

能够处理零到许多分组变量

能够为加权均值

指定权重变量

我们没有尝试做其他任何事情(任何图形等)。

到目前为止，这是我们所拥有的:

def wmean_ungrouped (d,w):
    return (d.dot(w)).sum() / w.sum()

def wmean_grouped (group, var_name_in, var_name_weight):
    d = group[var_name_in]
    w = group[var_name_weight]
    return (d * w).sum() / w.sum()

FUNCS = {
    "mean"   : np.mean ,
    "sum"   : np.sum ,
    "count" : np.count_nonzero
}

def my_summary (
        data ,
        var_names_in ,
        var_names_out ,
        var_functions ,
        var_name_weight = None ,
        var_names_group = None
):
    result = DataFrame()

    if var_names_group is not None:
        grouped = data.groupby (var_names_group)
        for var_name_in, var_name_out, var_function in \
                zip(var_names_in,var_names_out,var_functions):
            if var_function == "wmean":
                func = lambda x : wmean_grouped (x, var_name_in, var_name_weight)
                result[var_name_out] = Series(grouped.apply(func))
            else:
                func = FUNCS[var_function]
                result[var_name_out] = grouped[var_name_in].apply(func)
    else:
        for var_name_in, var_name_out, var_function in \
                zip(var_names_in,var_names_out,var_functions):
            if var_function == "wmean":
                result[var_name_out] = \
                    Series(wmean_ungrouped(data[var_name_in], data[var_name_weight]))
            else:
                func = FUNCS[var_function]
                result[var_name_out] = Series(func(data[var_name_in]))

    return result

这是对 my_summary()函数的示例调用:

    my_summary (
        data=df,
        var_names_in=["x_1","x_1","x_1","x_1"] ,
        var_names_out=[
            "x_1_c","x_1_s","x_1_m","x_1_wm"
        ] ,
        var_functions=["count","sum","mean","wmean"] ,
        var_name_weight="val_1" ,
        var_names_group=["Region","Category"]
)

my_summary()可以工作，但是如您所见，它的实现不是最漂亮的。以下是主要问题:

取决于分组的或未分组的，有两种不同的代码路径-这完全源于DataFrame和DataFrameGroupBy具有将程序选择的归约函数应用于单列的不同方法。对于DataFrame，我发现的唯一方法是直接调用func(data[var_name_in])。 data[var_name_in].apply(func)不起作用，因为apply()上的Series不会减少(与apply()上的DataFrame不同)。另一方面，对于DataFrameGroupBy，我必须使用这种方法:grouped[var_name_in].apply(func)。那是因为像func(grouped[var_name_in])这样的东西不起作用(没有理由应该这样做)。

加权均值的特殊处理-这是因为它在两列上进行运算，而与所有其他计算不同，后者仅对一列进行运算；我不知道这是否可以帮助您。

两种不同的加权均值函数-这是第一个问题的结果。未分组的函数具有Series类型的参数，需要dot()对其进行乘减。分组的函数最终会处理SeriesGroupBy对象，并且必须使用*运算符(对于加权平均函数代码，对the answer to this SO post的确认。)

所以我的问题是:

Pandas 是否有某种东西可以完成所有这些工作(即扔掉上面的东西并改用它)？

如果不是，是否对上述任何问题进行了修复？

碰巧有什么办法可以不进行分组-即从DataFrameGroupBy获取DataFrame对象而不对任何变量进行分组吗？然后，将减少代码路径，因为我们将专门处理DataFrameGroupBy接口(interface)。

更新(旧-向下滚动至当前)

@JohnE的答案提供了一种按任何内容进行分组的方法: groupby(lambda x: True)。这是他发现 in this SO post的一种解决方法(顺便说一句，Wes本人回答说需要 DataFrame.agg()，这将达到相同的目的)。 @JohnE的出色解决方案使我们可以专门处理 DataFrameGroupBy类型的对象，并立即减少大多数代码路径。由于我们只有 DataFrameGroupBy实例，因此我可以使用一些可能的功能来进一步减少麻烦。基本上，所有函数都是根据需要生成的-“生成器”(在此处加引号，以免与Python生成器表达式混淆)采用两个参数:值列名称和权重列名称，在所有情况下都将忽略其中的第二个参数 wmean。生成的函数始终应用在整个 DataFrameGroupBy上，就像最初使用 wmean一样，其参数是要使用的正确列名。我还用 Pandas 计算替换了所有的 np.*实现，以便更好地处理 NaN值。

除非有 Pandas 原生的东西可以做到这一点，否则这是我们的解决方案:

FUNC_GENS = {
    "mean"  : lambda y,z : lambda x : x[y].mean(),
    "sum"   : lambda y,z : lambda x : x[y].sum() ,
    "count" : lambda y,z : lambda x : x[y].count() ,
    "wmean" : lambda y,z : lambda x : (x[y] * x[z]).sum() / x[z].sum()
}

def my_summary (
        data ,
        var_names_in ,
        var_names_out ,
        var_functions ,
        var_name_weight = None ,
        var_names_group = None ):

    result = pd.DataFrame()

    if var_names_group is None:
        grouped = data.groupby (lambda x: True)
    else:
        grouped = data.groupby (var_names_group)

    for var_name_in, var_name_out, var_function in \
            zip(var_names_in,var_names_out,var_functions):
        func_gen = FUNC_GENS[var_function]
        func = func_gen (var_name_in, var_name_weight)
        result[var_name_out] = grouped.apply(func)

    return result

2019年更新/当前解决方案

在我的原始文章之后发布的 Pandas 版本现在实现了以下大多数功能:

不进行分组-过去，Wes M.说过需要 DataFrame.agg() 和it was indeed added in version 0.20.0以及 Series.agg() 。

多个列的多个聚合，并为输出列指定名称-这是now part of pandas as of version 0.25.+，形式为 NamedAgg inputs to the agg() function

因此，除加权平均值外，基本上所有其他内容。当前的一个很好的解决方案是 here。

最佳答案

好吧，这是一个确实可以解决两个问题的快捷方式(但对于加权均值仍然需要一个不同的功能)。通常，它使用here技巧(贷记@DSM)通过执行groupby(lamda x: True)来解决您的空组。如果在手段之类的东西上有一个“权重”的扭曲，但据我所知没有，那将是很棒的。显然有一个基于numpy的here加权分位数的程序包，但我对此一无所知。伟大的项目顺便说一句!

(请注意，名称与您的名称基本相同，我只是在wmean_grouped和my_summary中添加了“2”，否则可以使用相同的调用接口(interface))

def wmean_grouped2 (group, var_name_in, var_name_weight):
    d = group[var_name_in]
    w = group[var_name_weight]
    return (d * w).sum() / w.sum()

FUNCS = { "mean"  : np.mean ,
          "sum"   : np.sum ,
          "count" : np.count_nonzero }

def my_summary2 (
        data ,
        var_names_in ,
        var_names_out ,
        var_functions ,
        var_name_weight = None ,
        var_names_group = None ):

    result = pd.DataFrame()

    if var_names_group is None:
        grouped = data.groupby (lambda x: True)
    else:
        grouped = data.groupby (var_names_group)

    for var_name_in, var_name_out, var_function in \
            zip(var_names_in,var_names_out,var_functions):
        if var_function == "wmean":
            func = lambda x : wmean_grouped2 (x, var_name_in, var_name_weight)
            result[var_name_out] = pd.Series(grouped.apply(func))
        else:
            func = FUNCS[var_function]
            result[var_name_out] = grouped[var_name_in].apply(func)

    return result

关于python - 在Python/Pandas中创建部分SAS PROC Summary替换，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29926940/

文章推荐： c++ - 从私有(private)嵌套类型继承在 C++11 中是否合法？

文章推荐： c# - MVP，Winforms - 事件处理程序或委托(delegate)

文章推荐： c++ - 如何结合 boost::spirit::lex 和 boost::spirit::qi？

文章推荐： c# - 如何更改 PropertyGrid 控件的边框颜色(或删除边框)？

sas - 打开 SAS 数据集以从 .sas 程序中查看
有没有办法从 .sas 文件中打开 SAS 数据集进行查看(即在“ViewTable”窗口中)？最佳答案我认为这会做你想做的: dm log "vt sashelp.air"; 只需更改 "sas
sas - 如何在 SAS 程序中使 SAS 数据集只读？
如何在 SAS 程序中将 sas 数据表 (sas7bdat) 设置为只读？ — 即使在 session 之间，该表也必须保持只读状态，尤其是当另一个用户注册该库并尝试写入数据集时。一旦创建了这些表，
sas - SAS 中的日期错误
如何将 mmddyy 变量转换为 date9 变量？例如，假设我们有以下内容: x = 05/10/2011 我希望 x 的形式为 10May2011。所以我做了以下事情: xnew =
sas - 将文本文件导入 SAS
我正在使用以下代码将文本文件导入 SAS: proc import datafile="C:\Users\Desktop\data.txt" out=Indivs dbms=dlm replace;
sas - SAS 的自定义格式
您好，我有兴趣为我在 SAS 中生成的数据制作一些稍微复杂的自定义格式。我需要它是数字类型。格式 1 0="-" >0="%" %" 即 0 >>>>>>> - .74 >>>>> 74% -.65
sas - 从一行文本文件中读取数据到 SAS
我正在尝试弄清楚如何读取文本文件 (300mb) 中以逗号分隔但数据位于一行中的数据。数据看起来像这样: a,b,c,d,e,f,g,h,i,j,k,l,m,false,false,true,1,3
sas - 使用 SAS 将 SAS 数据导出到 FTP
我想将 SAS 数据集从 SAS 导出到 FTP。我可以使用以下命令导出 csv 文件(或 txt 文件): %macro export_to_ftp(dsn= ,outfile_name= ); F
sas - SAS 中的编译与执行
这个问题在 SAS forum 上讨论过，与会者最终同意不同意。问题很简单:SAS 在编译时为所有变量分配一个缺失值UNLESS一个变量出现在sum 语句中(在这种情况下，SAS 在编译时分配了一个
sas - SAS 中不匹配的引号问题
众所周知，SAS需要特别注意句子中的引号。例如 %let quoted="I'd like to"; data temp; set temp; quoted=""ed"; r
sas - SAS 中的正态性检验
我对 SAS 完全陌生，我很绝望。所以，我的代码是: DATA abc; INPUT AA BB CC DD EE; CARDS; ; RUN; PROC PRINT DATA = abc; T
sas - 设置截止期 SAS
我在使用如下所示的数据集时遇到问题。它是不同位置/周的库存计数: data have; input itm location $ week inv; cards; 3 x 1 30 3 x 2
sas - 我们如何区分 PC SAS 和 SAS 服务器
我们需要确定我们现在使用的是什么类型的 SAS(pc SAS 或服务器 SAS)。有什么方法可以找出我们使用的是什么 SAS，是指 PC SAS 还是 SAS Server？最佳答案使用“proc
sas - 在数据集的行内排名 [sas]
假设我有一个包含 n 行和 p 列的数据集，这样数据集中的每个条目都包含一个实数。我正在寻找一种方法来对每行中的 p 列进行排名。这个排名的输出应该是一个长度 - p 的排名向量，它说明了关系。所以
sas - 打印带分隔符的所有列 SAS
我正在尝试打印一个带分隔符的文件，而不必指定所有列。我可以接近，但数字列总是被引用: DATA _NULL_; SET SASHELP.CARS (obs = 5 keep = Make Mode
sas - SAS 一次可以读取的最大文件大小是多少？
SAS 软件可以成功读取的最大文件大小是多少。(不考虑硬件限制) 提前致谢。最佳答案引用最近播放的电视广告，答案是“无限加 1”。 SAS 在读取操作期间对文件的大小没有任何限制，尽管您可能会遇到
sas - SAS 中的非线性多元回归
我有一个包含变量 y、x1 和 x2 的数据集。我想找到适合模型的方程式: y = k1*x1c1 + k2 *x2c2 通过找到 k1、c1、k2 和 c2。我如何在 SAS 中执行此操作？具体来说
sas - SAS-定义字母数组
SAS中是否有用于定义数组中字母序列的简写？许多语言都具有轻松执行此操作的机制，我想SAS也是如此，尽管我找不到它的引用。例如，在R中，我可以做 > x x [1] "a" "b" "c" "d
sas - SAS 中的多个哈希对象
我有两个 SAS 数据集。第一个相对较小，包含唯一的日期和相应的 ID: date dateID 1jan90 10 2jan90 15 3jan90 20 ... 第二个
sas - SAS 入门书
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
sas - SAS 中的逻辑函数来确定变量的特定值是否为数字？
我有一个主要是数值的变量，但是偶尔会有一个字符偷偷进入。因此，变量在 SAS 中存储为字符。我希望能够确定此字符变量中的各个值是否为数字。在知道哪些值是数字哪些是字符后，我想创建一个新的(数字)变量，

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 在Python/Pandas中创建部分SAS PROC Summary替换