gpt4 book ai didi

python - Pandas-根据重复行更新特定列中的值

转载 作者:行者123 更新时间:2023-12-04 03:36:29 27 4
gpt4 key购买 nike

我有一个公寓楼销售的 pandas 数据库,一列是价格,另一列是销售日期。其中一些销售是针对多处特性,但每处特性的标价反射(reflect)了多处特性的总售价。这些捆绑交易可以通过销售发生的日期进一步识别。

例如:

<表类="s-表"><头>地址价格售出日期税收评估值<正文>301-303 东四街36725302020-11-2434200009 大道 B12500002020-06-1665000011 大道 B12500002020-06-16800000东四街231-233号25000002020-06-165111000

到目前为止,我已经使用以下方法识别了数据框中的所有重复项:

df[df.duplicated(['Price', 'Date Sold'], keep = False)]

哪个返回:

<表类="s-表"><头>地址价格售出日期税收评估值<正文>9 大道 B12500002020-06-1665000011 大道 B12500002020-06-16800000

数据库中有许多包含不同数量建筑物的捆绑交易。我想估算和更新 bundle 中每个建筑物的价格,方法是使用 bundle 的总税收评估值乘以价格值的比例。

例如。 (650000/(650000+800000))*1250000 = 560344.8

所以,我最终会得到:

<表类="s-表"><头>地址价格售出日期税收评估值<正文>9 大道 B560344.82020-06-1665000011 大道 B689655.22020-06-16800000

我发现了一些关于如何替换整行或一列值的先前问题,但最终在识别每个包和计算比例时我很迷茫。

最佳答案

尝试:

df['Price'] *= (df['Tax Assessed Value'] / 
df.groupby(['Price', 'Date Sold'])['Tax Assessed Value'].transform('sum')
)

但我认为您需要准确确定重复的含义

关于python - Pandas-根据重复行更新特定列中的值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66786498/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com