- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们正在努力脱离SAS,转而使用Python/Pandas。但是,我们遇到的一件事是创建具有SAS例程灵活性的PROC SUMMARY
(AKA PROC MEANS
)的替代品。对于非SAS用户:PROC SUMMARY
只是一个例程,该例程会生成一个表,该表包含数据集中“所有观察值或一组观察值内变量的描述性统计信息”,以解释SAS文档。我们的需求只是全部功能的一小部分-输出一个我们拥有的表:
def wmean_ungrouped (d,w):
return (d.dot(w)).sum() / w.sum()
def wmean_grouped (group, var_name_in, var_name_weight):
d = group[var_name_in]
w = group[var_name_weight]
return (d * w).sum() / w.sum()
FUNCS = {
"mean" : np.mean ,
"sum" : np.sum ,
"count" : np.count_nonzero
}
def my_summary (
data ,
var_names_in ,
var_names_out ,
var_functions ,
var_name_weight = None ,
var_names_group = None
):
result = DataFrame()
if var_names_group is not None:
grouped = data.groupby (var_names_group)
for var_name_in, var_name_out, var_function in \
zip(var_names_in,var_names_out,var_functions):
if var_function == "wmean":
func = lambda x : wmean_grouped (x, var_name_in, var_name_weight)
result[var_name_out] = Series(grouped.apply(func))
else:
func = FUNCS[var_function]
result[var_name_out] = grouped[var_name_in].apply(func)
else:
for var_name_in, var_name_out, var_function in \
zip(var_names_in,var_names_out,var_functions):
if var_function == "wmean":
result[var_name_out] = \
Series(wmean_ungrouped(data[var_name_in], data[var_name_weight]))
else:
func = FUNCS[var_function]
result[var_name_out] = Series(func(data[var_name_in]))
return result
my_summary()
函数的示例调用:
my_summary (
data=df,
var_names_in=["x_1","x_1","x_1","x_1"] ,
var_names_out=[
"x_1_c","x_1_s","x_1_m","x_1_wm"
] ,
var_functions=["count","sum","mean","wmean"] ,
var_name_weight="val_1" ,
var_names_group=["Region","Category"]
)
my_summary()
可以工作,但是如您所见,它的实现不是最漂亮的。以下是主要问题:
DataFrame
和DataFrameGroupBy
具有将程序选择的归约函数应用于单列的不同方法。对于DataFrame
,我发现的唯一方法是直接调用func(data[var_name_in])
。 data[var_name_in].apply(func)
不起作用,因为apply()
上的Series
不会减少(与apply()
上的DataFrame
不同)。另一方面,对于DataFrameGroupBy
,我必须使用这种方法:grouped[var_name_in].apply(func)
。那是因为像func(grouped[var_name_in])
这样的东西不起作用(没有理由应该这样做)。Series
类型的参数,需要dot()
对其进行乘减。分组的函数最终会处理SeriesGroupBy
对象,并且必须使用*
运算符(对于加权平均函数代码,对the answer to this SO post的确认。)DataFrameGroupBy
获取DataFrame
对象而不对任何变量进行分组吗?然后,将减少代码路径,因为我们将专门处理DataFrameGroupBy
接口(interface)。 groupby(lambda x: True)
。这是他发现
in this SO post的一种解决方法(顺便说一句,Wes本人回答说需要
DataFrame.agg()
,这将达到相同的目的)。 @JohnE的出色解决方案使我们可以专门处理
DataFrameGroupBy
类型的对象,并立即减少大多数代码路径。由于我们只有
DataFrameGroupBy
实例,因此我可以使用一些可能的功能来进一步减少麻烦。基本上,所有函数都是根据需要生成的-“生成器”(在此处加引号,以免与Python生成器表达式混淆)采用两个参数:值列名称和权重列名称,在所有情况下都将忽略其中的第二个参数
wmean
。生成的函数始终应用在整个
DataFrameGroupBy
上,就像最初使用
wmean
一样,其参数是要使用的正确列名。我还用 Pandas 计算替换了所有的
np.*
实现,以便更好地处理
NaN
值。
FUNC_GENS = {
"mean" : lambda y,z : lambda x : x[y].mean(),
"sum" : lambda y,z : lambda x : x[y].sum() ,
"count" : lambda y,z : lambda x : x[y].count() ,
"wmean" : lambda y,z : lambda x : (x[y] * x[z]).sum() / x[z].sum()
}
def my_summary (
data ,
var_names_in ,
var_names_out ,
var_functions ,
var_name_weight = None ,
var_names_group = None ):
result = pd.DataFrame()
if var_names_group is None:
grouped = data.groupby (lambda x: True)
else:
grouped = data.groupby (var_names_group)
for var_name_in, var_name_out, var_function in \
zip(var_names_in,var_names_out,var_functions):
func_gen = FUNC_GENS[var_function]
func = func_gen (var_name_in, var_name_weight)
result[var_name_out] = grouped.apply(func)
return result
DataFrame.agg()
和it was indeed added in version 0.20.0以及 Series.agg()
。 NamedAgg
inputs to the agg()
function 最佳答案
好吧,这是一个确实可以解决两个问题的快捷方式(但对于加权均值仍然需要一个不同的功能)。通常,它使用here技巧(贷记@DSM)通过执行groupby(lamda x: True)
来解决您的空组。如果在手段之类的东西上有一个“权重”的扭曲,但据我所知没有,那将是很棒的。显然有一个基于numpy的here加权分位数的程序包,但我对此一无所知。伟大的项目顺便说一句!
(请注意,名称与您的名称基本相同,我只是在wmean_grouped和my_summary中添加了“2”,否则可以使用相同的调用接口(interface))
def wmean_grouped2 (group, var_name_in, var_name_weight):
d = group[var_name_in]
w = group[var_name_weight]
return (d * w).sum() / w.sum()
FUNCS = { "mean" : np.mean ,
"sum" : np.sum ,
"count" : np.count_nonzero }
def my_summary2 (
data ,
var_names_in ,
var_names_out ,
var_functions ,
var_name_weight = None ,
var_names_group = None ):
result = pd.DataFrame()
if var_names_group is None:
grouped = data.groupby (lambda x: True)
else:
grouped = data.groupby (var_names_group)
for var_name_in, var_name_out, var_function in \
zip(var_names_in,var_names_out,var_functions):
if var_function == "wmean":
func = lambda x : wmean_grouped2 (x, var_name_in, var_name_weight)
result[var_name_out] = pd.Series(grouped.apply(func))
else:
func = FUNCS[var_function]
result[var_name_out] = grouped[var_name_in].apply(func)
return result
关于python - 在Python/Pandas中创建部分SAS PROC Summary替换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29926940/
我想对一个字符串执行搜索和替换,比如 password。 正如您从问题中了解到的那样,替换后的字符串应变为 sdvvzrug。 但不幸的是,下面的代码输出bbbbcaab: $search = ran
我正在使用 futurize --stage2它应用了许多源代码转换以使代码 python2 和 python3 兼容。其中一个修复是所有分区 a/b 都替换为 old_div(a/b),我想避免这种
我正在使用 RStudio,但我在控制台上的输出被截断了。我找不到如何停止截断(我尝试搜索 ?options 以及在谷歌上搜索的时间比我想承认的要长)。 编辑:我向大家道歉!我最初的长名称为“This
我有一个 fragment 堆栈,我在其中使用替换和相加。添加或替换我的 fragment 的代码(在我的 Activity 中)如下 private fun addFragment(fragment
我在一个数组中插入了一些字符串,但在我这样做之前,我想按照主题所说的去做。只用 %20 替换空格,我这样做: Name.push(linkText.replace(" ", "%20")); 但是我如
我正在尝试编译和测试我在网上看到的代码 Expanding an IP add 。但是,当我尝试编译它时,我收到有关 StringBuilder 替换方法的错误。它说: IPadd.java:52:
我正在尝试使用 dplyr 的最新功能重写我的部分代码,方法是将 data.frame() 替换为 data_frame() 和 cbind() 与 bind_cols(): library(rgeo
我最近偶然发现了 replace()和 "[ x.tst s.tst s.tst [,1] [,2] [,3] [1,] 0 0 0
我一直想知道,如何在给定的参数内进行替换。 如果你有这样的一行: 123,Hello,World,(I am, here), unknown 你想更换 World与 Foobar那么这是一个简单的任务
如何转义字符串中的双引号?例如, input: "Nobody" output: \"Nobody\" 我尝试过这样的操作,但不起作用: String name = "Nobody"; name.r
我正在做类似的事情: SQL sql sQl SqL var ps = document.getElementsByTagName('p'); for(var i = 0; i 但它不会替换文本。
我正在尝试用 \" 替换所有 " 并用 JSON 解析字符串,但浏览器抛出错误 SyntaxError: JSON Parse error: Unrecognized token '\'. 下面是代码
大家好,在这里挣扎...... 是否可以将第一个正斜杠之间的任何内容替换为“”,但保留其余部分? 例如var 将是 string "/anything-here-this-needs-to-be-re
在下面的代码中,JavaScript 替换函数中的 alert(a) 将提醒匹配的字符串,在本例中,将是 {name} 和 {place}。 这按照文档 javascript docs 的描述工作,即
+-----------------------------+ | tables | +-------------------
我正在尝试用\"替换包含 "的字符串,下面是我尝试过的程序 String s="\"/test /string\""; s = s.replaceAll("\"", "\\\"");
var text = "a's ..a's ...\"... "; text = convert(text); function convert( text ) { var n = text
我正在尝试使用 JavaScript 中的替换函数,但有一个问题。 strNewDdlVolCannRegion = strNewDdlVolCannRegion.replace(/_existing
好吧,首先我对我的上一篇文章感到非常抱歉,但我真的需要帮助,我会把我真正想要的东西放在一个更清晰的代码中。我不擅长 javascript,所以希望你能帮助我。
我正在写一张纸条,遇到了障碍。可能有更有效的方法来执行此操作,但我对 Python 还很陌生。我正在尝试创建用户生成的 IP 地址列表。我正在使用 print 来查看生成的值是否正确。当我运行此代码时
我是一名优秀的程序员,十分优秀!