- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有以下数据框:
df = pd.DataFrame(
[{'price': 22, 'weight': 1, 'product': 'banana', },
{'price': 20, 'weight': 2, 'product': 'apple', },
{'price': 18, 'weight': 2, 'product': 'car', },
{'price': 100, 'weight': 1, 'product': 'toy', },
{'price': 27, 'weight': 1, 'product': 'computer', },
{'price': 200, 'weight': 1, 'product': 'book', },
{'price': 200.5, 'weight': 3, 'product': 'mouse', },
{'price': 202, 'weight': 3, 'product': 'door', },]
)
我必须做的是按连续价格分组,其中它们之间的差异是否小于阈值(比如 2.0)。之后,我必须仅对“小于阈值”的组应用以下聚合,否则不应聚合该组:
price
应该是 price
和 weight
之间的加权平均值权重
应该是最大值product
应该是字符串拼接到目前为止我做了什么(一步一步):
df.sort_values(by=['price'], inplace=True)
price weight product
2 18.0 2 car
1 20.0 2 apple
0 22.0 1 banana
4 27.0 1 computer
3 100.0 1 toy
5 200.0 1 book
6 200.5 3 mouse
7 202.0 3 door
df['asc_diff'] = df['price'].diff(periods=1)
df['desc_diff'] = df['price'].diff(periods=-1).abs()
price weight product asc_diff desc_diff
2 18.0 2 car NaN 2.0
1 20.0 2 apple 2.0 2.0
0 22.0 1 banana 2.0 5.0
4 27.0 1 computer 5.0 73.0
3 100.0 1 toy 73.0 100.0
5 200.0 1 book 100.0 0.5
6 200.5 3 mouse 0.5 1.5
7 202.0 3 door 1.5 NaN
asc_diff
和 desc_diff
列以删除 NaN
并创建连续区域df['asc_diff'] = df['asc_diff'].combine_first(df['desc_diff'])
df['asc_diff'] = df[['asc_diff', 'desc_diff']].min(axis=1).abs()
df['asc_diff'] = df['asc_diff'] <= 2.0
df = df.drop(columns=['desc_diff'])
price weight product asc_diff
2 18.0 2 car True
1 20.0 2 apple True
0 22.0 1 banana True
4 27.0 1 computer False
3 100.0 1 toy False
5 200.0 1 book True
6 200.5 3 mouse True
7 202.0 3 door True
g = df.groupby((df['asc_diff'].shift() != df['asc_diff']).cumsum())
for k, v in g:
print(f'[group {k}]')
print(v)
[group 1]
price weight product asc_diff
2 18.0 2 car True
1 20.0 2 apple True
0 22.0 1 banana True
[group 2]
price weight product asc_diff
4 27.0 1 computer False
3 100.0 1 toy False
[group 3]
price weight product asc_diff
5 200.0 1 book True
6 200.5 3 mouse True
7 202.0 3 door True
到目前为止一切顺利,但当我不得不汇总时,问题来了:
def product_join(x):
return ' '.join(x)
g.agg({'weight': 'max', 'product': product_join})
weight product
asc_diff
1 2 car apple banana
2 1 computer toy
3 3 book mouse door
问题:
我要实现的目标:
asc_diff
为真)并保持第 2 组完整price
聚合函数中,我需要一个函数来访问两列(即 price
和 weight
)以获得加权平均值<提前致谢!
最佳答案
这建立在@Panwen Wang 的解决方案之上,并坚持使用 Pandas:
通过 cumsum 和 diff 获取连续的行:
temp = (df
.sort_values('price')
.assign(group = lambda df: df.price.diff().gt(2).cumsum())
)
temp
price weight product group
2 18.0 2 car 0
1 20.0 2 apple 0
0 22.0 1 banana 0
4 27.0 1 computer 1
3 100.0 1 toy 2
5 200.0 1 book 3
6 200.5 3 mouse 3
7 202.0 3 door 3
创建一个自定义函数来获取加权平均值(您也可以使用 np.average,我只是想避免应用函数):
def weighted_mean(df, column_to_average, weights, by):
df = df.copy()
df = df.set_index(by)
numerator = df[column_to_average].mul(df[weights]).sum(level=by)
denominator = df[weights].sum(level=by)
return numerator/denominator
计算结果:
(temp
.assign(price = lambda df: df.group.map(weighted_mean))
.groupby('group')
.agg(price=('price','first'),
weight=('weight','max'),
product=('product', ' '.join))
)
price weight product
group
0 19.600000 2 car apple banana
1 27.000000 1 computer
2 100.000000 1 toy
3 201.071429 3 book mouse door
关于python - 具有组条件的 Pandas 自定义聚合函数,可能吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68135422/
这很可能是我的语法错误,因为我对在 C++ 中使用多个文件和结构(特别是将结构传递给函数)还很陌生。这是三个文件: 主要.cpp: #include #include #include #inc
我有 TypeScript NestJS 项目。 我需要验证传入的 DTO 到我的 API。它可以被描述为“创建项目”,其中我们有建筑类型(房屋、公寓、花园),并根据该类型我们需要定义: 房屋:楼层包
是否可以从可用于泛型参数的可能类型集中排除特定类型?如果是如何。 例如 Foo() : where T != bool 将意味着除了类型 bool 之外的任何类型。 编辑 为什么? 以下代码是我尝试强
我的 WebGL 体积光线转换应用程序即将完成。但是我发现了一个问题。我必须通过 2D 纹理模拟 3D 纹理。这不是问题。我正在用小切片创建一个巨大的纹理。巨大纹理的尺寸约为 4096x4096 像素
我正在处理的网页上显示了一个返回顶部按钮。当您向下滚动时,有时单击它时,它会跳到顶部,然后跳回您在页面上的位置,然后像预期的那样平滑滚动到顶部。请记住,它并不总是这样做。这只是一个滞后或故障问题还是我
我对此还很陌生,所以请耐心等待。 我有一个类,它具有三个属性:几个整数和一个用户定义对象的集合。 public class Response { public int num1 { get;
我正在制作一款平台游戏,让玩家每 30 毫秒跳跃一次,并向上添加少量的力。我想我应该使用多线程,因为我之前已经做过一些,而且看起来很简单。无论如何,我尝试了这个: public void jump()
是否可以从可能的类型集中排除特定类型,这些类型可以在泛型参数中使用?如果是这样的话。 例如 Foo() : where T != bool 表示除 bool 类型之外的任何类型。 编辑 为什么? 以下
我正在尝试在单个查询中实现内部和外部联接,我不确定我的做法是正确还是错误,因为我不太擅长查询。 就这样吧。 我有以下表格。 hrs_residentials hrs_residential_utili
关于 my website ,有一段代码可以向页面添加几个元素。这段代码不是我可以编辑的东西,而且我对它放置这些元素的位置不满意,因为它弄乱了我的一些布局。所以我想出了一个小的 jQuery 来将它们
一位客户希望我创建一个数据集,如下所示。我不知道这是否可能或合乎逻辑。 我有表parent: id name ------- ------- 1 parent1 2
这可能吗?google 好像没有这方面的资料.. 这样,如果用户在另一个网站上播放视频或歌曲,我的音量就会自动减小 最佳答案 不,这是不可能的。 如果可能的话,它必须是特定于浏览器的,但我不认为这种情
所以我正在尝试制作响应式页面。问题是为什么它归结为移动数据需要位于列表中。 我会用一些示例代码来解释 所以这可能是桌面上的输出 option1
当您将鼠标悬停在a 元素 上时,是否可以删除url? 这就是我的意思: 最佳答案 一种选择是使用一些 JavaScript。 删除 href=来自 的属性标签,取而代之的是 onclick=...
我已经考虑了几个小时,但我无法取得太大进展。它是这样的: You have an array of size n and q queries. Each query is of the form (l
我一直在尝试编写一个脚本来强化 android。我没有成功! 我正在通过模拟器运行一个 AVD,并且已经用我加载的 android shell 和 bash shell 试过了。正如您将在下面看到的那
Private Sub Workbook_Open() Dim WBname As String WBname = ThisWorkbook.name If Not InStr(WBname, "te
Spark 2.0.0-预览版 我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它,因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[Strin
我正在尝试从此link中提取摘要。但是,我无法仅提取摘要的内容。到目前为止,这是我完成的工作: url <- "http://www.scielo.br/scielo.php?script=sci_a
我的主页中有一个iframe。 iframe页面中有一个modalpopup。因此,当显示modalpopup时,modalpopup的父级是iframe主体和主页父级主体。因此,覆盖层仅覆盖ifra
我是一名优秀的程序员,十分优秀!