- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我希望更有效地执行以下操作:
对于按“名称”、“日期”、“时间”和附加指示变量“id”收集的数据,我想计算“值”列的每日加权平均值 ,使用“权重”列作为平均值中的权重,按“id”。原始数据示例如下:
df = pd.DataFrame({"name":["A", "A", "A" ,"A", "A" ,"A", "B", "B", "B", "B"], "date":["06/24/2014","06/24/2014","06/24/2014","06/24/2014","06/25/2014","06/25/2014","06/25/2014","06/24/2014","06/24/2014","06/25/2014"], "time":['13:01:08', '13:46:53', '13:47:13', '13:49:11', '13:51:09', '14:35:03','15:35:00', '16:17:26', '16:17:26', '16:17:26'] , "id": ["B","B","S","S","S","B","S","B","S","S"], "value":[100.0, 98.0, 102.0, 80.0, 10.0, 200.0, 99.5, 10.0, 9.8, 10.0], "weights": [20835000.0, 3960000.0, 3960000.0, 3955000.0, 3960000.0, 5000000.0, 2000000.0, 6850.0, 162997.79999999999, 5000.0] })
应用此函数后,数据应该只有“name”、“id”和“w_avg”列。
我使用 groupby 为此编写了以下函数:
df1 = df.groupby(['name','date','id'], as_index=False).apply(lambda x: np.average(x['value'], weights=x['weights'])).unstack()
我从中得到的输出如下:
id B S
name date
A 06/24/2014 99.680581 91.006949
06/25/2014 200.000000 10.000000
B 06/24/2014 10.000000 9.800000
06/25/2014 NaN 99.276808
现在,对于每个“名称”“日期”,我想从“S”中减去 id 的“B”以获得“diff”列。
为此,我创建了一个新的数据框。为了提取我所做的索引:
name,date = zip(*list(df1.index.values))
df2 = pd.DataFrame({'name':name, 'date':date, 'B':list(df1['B']), 'S':list(df1['S'])})
df2['diff'] = df2['B'] - df2['S']
您能建议一种更紧凑的功能吗?另外,我希望它能够快速完成,因为我正在处理数百万行。 groupby 是执行此操作的最佳方法吗?
谢谢,
最佳答案
我认为你可以使用reset_index
然后减去:
df3 = df1.reset_index()
df3['diff'] = df3['B'] - df3['S']
print (df3)
id name date B S diff
0 A 06/24/2014 99.680581 91.006949 8.673632
1 A 06/25/2014 200.000000 10.000000 190.000000
2 B 06/24/2014 10.000000 9.800000 0.200000
3 B 06/25/2014 NaN 99.276808 NaN
编辑:
看来你的解决方案是最快的len(df)=100k
:
df = pd.concat([df]*10000).reset_index(drop=True)
In [114]: %timeit (df.groupby(['name','date','id'], as_index=False).apply(lambda x: np.average(x.value, weights=x.weights)))
10 loops, best of 3: 34.6 ms per loop
In [115]: %timeit ((df.value * df.weights).groupby([df.name,df.date,df.id]).sum() / df.weights.groupby([df.name,df.date,df.id]).sum())
10 loops, best of 3: 38.4 ms per loop
但最快的解决方案是:
df['value'] = df.value * df.weights
g = df.groupby(['name','date','id'])
print (g['value'].sum() / g['weights'].sum())
In [125]: %timeit (a(df))
10 loops, best of 3: 20 ms per loop
测试代码:
def a(df):
df['value'] = df.value * df.weights
g = df.groupby(['name','date','id'])
return (g['value'].sum() / g['weights'].sum())
print (a(df))
编辑1:
解决方案与原始方案的比较:
In [132]: %timeit (orig(df5))
10 loops, best of 3: 37.4 ms per loop
In [133]: %timeit (a(df))
10 loops, best of 3: 22.7 ms per loop
测试代码:
df = pd.concat([df]*10000).reset_index(drop=True)
df5 = df.copy()
def orig(df):
df1 = df.groupby(['name','date','id'], as_index=False).apply(lambda x: np.average(x['value'], weights=x['weights'])).unstack()
name,date = zip(*list(df1.index.values))
df2 = pd.DataFrame({'name':name, 'date':date, 'B':list(df1['B']), 'S':list(df1['S'])})
df2['diff'] = df2['B'] - df2['S']
df2 = df2[['name','date','B','S','diff']]
return df2
def a(df):
df['value'] = df.value * df.weights
g = df.groupby(['name','date','id'])
df2 = (g['value'].sum() / g['weights'].sum()).unstack().reset_index()
df2['diff'] = df2['B'] - df2['S']
return df2
print (orig(df5))
print (a(df))
关于python - 行数据框 pandas 的加权平均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37791073/
我有一个包含三个字段的表:ID、值、计数 ID和Value构成PK。 给定一个 ID,我想选择一个按计数加权的值,然后将计数减一。 如果我有 1 A 2 1 B 3 我应该有 2/5 的机会获
我有一个数据集,其中开始日期和日期没有特定的顺序。我想创建一组新的几个月列和数据的加权平均值。 del 代表否。日期范围内的天数 d 是该时间段的平均值 from datetime import da
我正在开发的一个软件应用程序需要能够根据用户当前拥有的任务数量将任务分配给一组用户,其中任务最少的用户最有可能获得下一个任务。然而,当前的任务负载应该被视为一个权重,而不是一个绝对的顺序定义。 IOW
我正在尝试用字典创建一个光学字符识别系统。 事实上,我还没有实现字典=) 我听说有一些基于 Levenstein 距离的简单指标,这些指标考虑了不同符号之间的不同距离。例如。 'N' 和 'H' 彼此
三个AI新手问题: 为什么 A* 可以采用启发式算法来找到最佳路径? 如果障碍物挡住了道路,系带制动技术有什么用? 什么算法适合在有障碍物的网格上找到路径? (像吃 bean 一样) 第一个问题让我们
我有一个 2396x34 double matrix命名 y其中每一行 (2396) 代表一个单独的情况,由 34 个连续的时间段组成。 我也有 numeric[34]命名 x这代表了 34 个连续时
我有一个如下所示的多维数组,我想做一些奇特的排序,但我不知道如何处理它。我想首先按第 5 个元素对数组元素进行排序,然后是第 4 个元素,然后是第 3 个元素,然后是第 2 个元素,然后是第 1 个元
我想对具有三个变量(列)的数据集(即 Sample_Data)进行 Kmeans 聚类,如下所示: A B C 1 12 10 1 2 8 11 2 3 14 10
我环顾四周,发现了一些与我类似的问题,但它们缺乏解释。 我正在尝试搜索包含多列的表格。我希望匹配列数最多的行位于顶部,匹配列数最少的行位于底部。我见过几种方法。我目前的糟糕方式是使用大量 MySQL
我必须大量使用加权概率分布,并且想使用 violinplots 进行一些可视化。但是,我找不到在任何常见嫌疑人(matplotlib、seaborn、bokeh 等)中使用加权数据创建这些数据的方法。
我会尽量做到彻底: 我有 11 个小组。 我有很多人需要在这些组之间进行划分 每个人都有一个加权偏好列表。通常在该列表上有 3 个有序的组,但一些异常值会有更多或更少的组。 IE:人 1 有进入 A
我有 100 个顶点和一个计算顶点 x 和顶点 y 之间边的权重的函数 f(x,y)。 f 不是特别昂贵,因此如果需要,我可以生成带权重的索引邻接列表。 有哪些有效、易处理的方法可以通过最小化或最大化
谁能给我指出一个关于如何构建(乘法和/或加法)加权 voronoi 图的引用实现,该图最好基于 Fortune 的 voronoi 算法? 我的目标:给定一组点(每个点都有一个权重)和一组边界边(通常
有没有一种方法可以使用标准库进行漂亮而优雅的加权洗牌?有 std::discrete_distribution。我想要的是这样的: std::vector data { N elements }; s
其实不是RANDBETWEEN()。我正在尝试创建一个 UDF 来返回数组中数字的索引,其中数字越大,被选择的可能性就越大。 我知道如何将概率分配给工作表中的随机数(即对概率之和使用 MATCH()
canvas 占据了整个屏幕,从绿色可以看出。canvasFrame 有两行,其中第二行是滚动文本小部件。第二行也被加权但是它没有填满屏幕,因为绿色区域应该是黄色的。如何让第二行填充空白并让滚动的文本
我正在研究 HITS 算法实现的加权版本。 这是 Hits 算法的公式(非加权版本): 其中HITS A为权威评分,HITS H为hub评分,维基百科算法伪代码: G := set of pages
我不确定如何实现这个,但这里是描述: 取一个 0-10 之间的数字作为输入(0 总是返回 false,10 总是返回 true) 将接收到的参数作为输入,并传递给一个函数,在运行时确定所需的 bool
所以我在 Pandas DataFrame 中有两个值列和两个权重列,我想生成第三列,它是这两列的分组依据、加权平均值。 因此: df = pd.DataFrame({'category':['a',
我正在尝试使用 ggridges 包(基于 ggplot2)创建一个 joyplot。一般的想法是 joyplot 创建很好缩放的堆叠密度图。但是,我似乎无法使用加权密度生成其中之一。在创建 joyp
我是一名优秀的程序员,十分优秀!