python - 在分组变量中按先前值(年份)标记滚动重复项-6ren

python - 在分组变量中按先前值(年份)标记滚动重复项

转载作者：行者123 更新时间：2023-11-28 22:08:52

29

4

我试图弄清楚是否有任何 ID 发生在任何早年(即 dfo 中的 Duplicate 列)。如果是这样，我想将该行标记为重复行并包括 ID 首次出现的年份(即 Year_Duplicate)。

我确实有一个工作代码。

Objective: I want to learn better (or 'pythonic') way to solve this problem in a better way i.e. if there is more condense way to solve it, I'd appreciate any help. I'm not too familiar with all the features we get with numpy and pandas

示例输入

dfi.to_dict() = 
{'Year': {0: 2020,
  1: 2020,
  2: 2020,
  3: 2021,
  4: 2021,
  5: 2021,
  6: 2022,
  7: 2022,
  8: 2022},
 'ID': {0: 1, 1: 2, 2: 3, 3: 1, 4: 4, 5: 2, 6: 5, 7: 1, 8: 4},
 '$': {0: 1, 1: 1, 2: 1, 3: 2, 4: 2, 5: 2, 6: 3, 7: 3, 8: 3}}

示例输出:

dfo.to_dict()
{'Year': {0: 2020,
  1: 2020,
  2: 2020,
  3: 2021,
  4: 2021,
  5: 2021,
  6: 2022,
  7: 2022,
  8: 2022},
 'ID': {0: 1, 1: 2, 2: 3, 3: 1, 4: 4, 5: 2, 6: 5, 7: 1, 8: 4},
 '$': {0: 1, 1: 1, 2: 1, 3: 2, 4: 2, 5: 2, 6: 3, 7: 3, 8: 3},
 'Duplicate': {0: False,
  1: False,
  2: False,
  3: True,
  4: False,
  5: True,
  6: False,
  7: True,
  8: True},
 'Year_Duplicate': {0: nan,
  1: nan,
  2: nan,
  3: 2020.0,
  4: nan,
  5: 2020.0,
  6: nan,
  7: 2020.0,
  8: 2021.0}}

工作代码:

import pandas as pd
from numpy import nan as NA

dfi=pd.DataFrame.from_dict(dfi)
dfo=pd.DataFrame.from_dict(dfo)

df_process = dfi.copy()
df_process['Duplicate']=df_process['ID'].duplicated()

indexes=df_process.groupby('ID')['Year'].idxmin
df_min_year = df_process[['Year','ID']].loc[indexes]
df_min_year=df_min_year.rename(columns={"Year": "Year_Duplicate"})

df_process=pd.merge(df_process,df_min_year,on=['ID'],how='left')
df_process.loc[df_process['Year_Duplicate']==df_process['Year'],'Year_Duplicate']=NA

dfo.equals(df_process) #returns TRUE

我很乐意回答任何问题。谢谢你帮助我。

来自以下评论的澄清:

$ 只是一个表示销售额的数字。它可以被忽略复制。
Year_Duplicate 显示该 ID 的第一年发生。如果没有重复，则不需要Year_Duplicate 在这种情况下我们将其留空。

最佳答案

使用Series.duplicated与 Series.where和 GroupBy.transform与 GroupBy.first :

df['Year_Duplicated']=df.groupby('ID')['Year'].transform('first').where(df['ID'].duplicated())
print (df)
   Year  ID  $  Year_Duplicated
0  2020   1  1              NaN
1  2020   2  1              NaN
2  2020   3  1              NaN
3  2021   1  2           2020.0
4  2021   4  2              NaN
5  2021   2  2           2020.0
6  2022   5  3              NaN
7  2022   1  3           2020.0
8  2022   4  3           2021.0

详细信息:

print (df.groupby('ID')['Year'].transform('first'))
0    2020
1    2020
2    2020
3    2020
4    2021
5    2020
6    2022
7    2020
8    2021
Name: Year, dtype: int64

关于python - 在分组变量中按先前值(年份)标记滚动重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58062128/

29

4

0

文章推荐： ios - uialertview 有光泽的外观和感觉

文章推荐： java - Tomcat session cookie 不会过期

文章推荐： java - Tomcat LoginModule - 访问httprequest

文章推荐： python - 组合多个字典列表

php - 步进搜索算法。从 N 中选择一个，重复，重复，查看最终结果
我想知道如何考虑需要您做出某些选择才能看到最终结果的搜索系统。我说的是 select 表单，您可以在其中根据您的选择继续操作，然后您会看到结果。下面描述了我正在谈论的一个随机示例。想象一下 Init
MYSQL - 重复
您好，我目前正在编写一些软件来管理我们的库存。我搜索了 2 个表 master_stock(保存每一个股票代码和描述)库存(保存库存代码、地点、数量...) 一切都很好，但这是我遇到的问题。假设我的
mysql向表中插入数据，重复
我有 2 个表，我想合并其数据。id 是我的关键字段(增量且不同)。表1和表2字段说明例如:id - 名称 - 值我想将表2的所有数据插入表1，它们有不同的数据，但在某些行中有相同的id。所以当我
assembly - 重复/广播一个字节到整数寄存器的每个位置
我正在努力解决汇编中的一个问题，我必须获取十六进制代码的第一个字节 (FF) 并将其复制到整个值中: 0x045893FF input 0xFFFFFFFF output 我所做的
eclipse - 重复 eclipse
我有 Eclipse Indigo 版本，我可以在其中运行 Java 和 C++ 项目。但我只想使用另一个 Eclipse 来编写 C++ 项目。所以我将 eclipse(不是工作区)的源文件夹复制
java - 按钮代码使应用崩溃(重复)
This question already has answers here: What is a NullPointerException, and how do I fix it? (12个答案)
r - 每个值的累积计数(重复)
This question already has answers here: Numbering rows within groups in a data frame (8个答案) 5个月前关闭。
vim - 更强大的点版本(重复)
我知道用q记录到寄存器中，但我想知道是否可以设置一些东西来快速调用最后一个记录，就像一样。回顾最后一个简短的编辑命令(有关的讨论请参阅 here。)。我知道@@，但它似乎只有在执行@z之后才起作
Xcode 重复/删除行
来自 Eclipse 并且一直习惯于复制行，发现 Xcode 没有这样的功能是很奇怪的。或者是吗？我知道可以更改系统范围的键绑定(bind)，但这不是我想要的。最佳答案要删除一行:Ctrl-A
Haskell，重复+排列的组合
假设我有一个包含元素的列表，例如[1,2,3,4,5,6,7,8]。我想创建长度为 N 的该元素的所有排列。因此，对于N = 4，它将是[[1,1,1,1],[1,1,1,2],[1,1,2,1],
java - JMenu 重复
我有一个带有 JMenu 的 JFrame。当我在某些情况下添加包含图像的 JPanel 时，程序首次启动时菜单会重复。调整大小时重复的菜单消失。任何建议都非常感激。谢谢。代码如下: public c
JAVA HashMap 重复
我正在尝试查找目录中文件的重复项。我对这个 block 有一个问题，它以文件地址作为参数: public void findFiles(ArrayList list){ HashMap hm
c# - 回发时列表框重复(重复)
我知道这个问题已经发布并且已经给出了答案，但我的情况不同，因为我在单个方法上填充多个下拉列表，所以如果我点击此链接 After every postback dropdownlist items re
c# - 从时间段中选择一天 - 重复
我正在尝试为我的日历应用程序实现重复模式。我希望它的工作方式与 Outlook 在您设置重复约会时的工作方式相同。 public async Task> ApplyReccurrencePeriod
c# - 重复 cookies ？
我有一个利用 cookie 来支持准向导的应用程序(即，它是一组相互导航的页面，它们必须以特定顺序出现以进行注册)。加载 Logon.aspx 页面时 - 默认页面 - 浏览器 cookie 看起来
Javascript 重复 if 语句更好的解决方案？
我有 3 个输入，代码检查它们是否为空，如果为空，则将变量值添加到输入中。所以我有 3 个具有值的变量: var input1text = "something here"; var input2t
javascript - 仅更改数组元素三次，重复
根据数组的长度更改数组的每个元素的最佳方法是什么？例如: User #1 input = "XYZVC" Expected Output = "BLABL" User #2 input = "XYZ
javascript - Algolia 重复
我在让 Algolia 正常工作时遇到了一些麻烦。我正在使用 NodeJS 并尝试在我的数据库和 Algolia 之间进行一些同步，但由于某种原因似乎随机弹出大量重复项。如您所见，在某些情况下，会弹
java - ANTLR4 重复 AND
遵循以下规则: expr: '(' expr ')' #exprExpr | expr ( AND expr )+ #exprAnd | expr ( OR expr )+ #exprO
Android动画应该从左进入，等待一段时间再从右离开，重复
我有一个布局，我想从左边进入并停留几秒钟，然后我希望它从右边离开。为此，我编写了以下代码: 这里我在布局中设置数据: private void loadDoctor(int doctorsInTheL

首页

博学

6Ren·AI

商城

python - 在分组变量中按先前值(年份)标记滚动重复项