python - 使用两个现有列创建和填充 Pandas 数据框列-6ren

python - 使用两个现有列创建和填充 Pandas 数据框列

转载作者：太空宇宙更新时间：2023-11-04 09:40:02

我的数据框有 4 列，如下所示。

我有什么:

ID  start_date  end_date    active
1,111   6/30/2015   8/6/1904    1 to 10
1,111   6/28/2016   3/30/1905   1 to 10
1,111   7/31/2017   6/6/1905    1 to 10
1,111   7/31/2018   6/6/1905    1 to 9
1,111   5/31/2019   12/4/1904   1 to 9
3,033   3/31/2015   5/18/1908   3 to 7
3,033   3/31/2016   11/24/1905  3 to 7
3,033   3/31/2017   1/20/1906   3 to 7
3,033   3/31/2018   1/8/1906    2 to 7
3,033   4/4/2019    2200,0  2 to 8

我想根据“事件”列的值再生成 10 个列，如下所示。有没有办法有效地填充它。

我想要实现的目标

ID  start_date  end_date    active  Type 1  Type 2  Type 3  Type 4  Type 5  Type 6  Type 7  Type 8  Type 9  Type 10
1,111   6/30/2015   8/6/1904    1 to 10 1   1   1   1   1   1   1   1   1   1
1,111   6/28/2016   3/30/1905   1 to 10 1   1   1   1   1   1   1   1   1   1
1,111   7/31/2017   6/6/1905    1 to 10 1   1   1   1   1   1   1   1   1   1
1,111   7/31/2018   6/6/1905    1 to 9  1   1   1   1   1   1   1   1   1   
1,111   5/31/2019   12/4/1904   1 to 9  1   1   1   1   1   1   1   1   1   
3,033   3/31/2015   5/18/1908   3 to 7          1   1   1   1   1           
3,033   3/31/2016   11/24/1905  3 to 7          1   1   1   1   1           
3,033   3/31/2017   1/20/1906   3 to 7          1   1   1   1   1           
3,033   3/31/2018   1/8/1906    2 to 7      1   1   1   1   1   1           
3,033   4/4/2019    2200,0  2 to 8      1   1   1   1   1   1   1

最佳答案

通过np.arange 使用自定义函数:

def f(x):
    a = list(map(int, x.split(' to ')))
    return pd.Series(1, index= np.arange(a[0], a[1] + 1))

df = df.join(df['active'].apply(f).add_prefix('Type '))
print (df)
      ID start_date    end_date   active  Type 1  Type 2  Type 3  Type 4  \
0  1,111  6/30/2015    8/6/1904  1 to 10     1.0     1.0     1.0     1.0   
1  1,111  6/28/2016   3/30/1905  1 to 10     1.0     1.0     1.0     1.0   
2  1,111  7/31/2017    6/6/1905  1 to 10     1.0     1.0     1.0     1.0   
3  1,111  7/31/2018    6/6/1905   1 to 9     1.0     1.0     1.0     1.0   
4  1,111  5/31/2019   12/4/1904   1 to 9     1.0     1.0     1.0     1.0   
5  3,033  3/31/2015   5/18/1908   3 to 7     NaN     NaN     1.0     1.0   
6  3,033  3/31/2016  11/24/1905   3 to 7     NaN     NaN     1.0     1.0   
7  3,033  3/31/2017   1/20/1906   3 to 7     NaN     NaN     1.0     1.0   
8  3,033  3/31/2018    1/8/1906   2 to 7     NaN     1.0     1.0     1.0   
9  3,033   4/4/2019      2200,0   2 to 8     NaN     1.0     1.0     1.0   

   Type 5  Type 6  Type 7  Type 8  Type 9  Type 10  
0     1.0     1.0     1.0     1.0     1.0      1.0  
1     1.0     1.0     1.0     1.0     1.0      1.0  
2     1.0     1.0     1.0     1.0     1.0      1.0  
3     1.0     1.0     1.0     1.0     1.0      NaN  
4     1.0     1.0     1.0     1.0     1.0      NaN  
5     1.0     1.0     1.0     NaN     NaN      NaN  
6     1.0     1.0     1.0     NaN     NaN      NaN  
7     1.0     1.0     1.0     NaN     NaN      NaN  
8     1.0     1.0     1.0     NaN     NaN      NaN  
9     1.0     1.0     1.0     1.0     NaN      NaN

类似的:

def f(x):
    a = list(map(int, x.split(' to ')))
    return pd.Series(1, index= np.arange(a[0], a[1] + 1))

df = df.join(df['active'].apply(f).add_prefix('Type ').fillna(0).astype(int))
print (df)
      ID start_date    end_date   active  Type 1  Type 2  Type 3  Type 4  \
0  1,111  6/30/2015    8/6/1904  1 to 10       1       1       1       1   
1  1,111  6/28/2016   3/30/1905  1 to 10       1       1       1       1   
2  1,111  7/31/2017    6/6/1905  1 to 10       1       1       1       1   
3  1,111  7/31/2018    6/6/1905   1 to 9       1       1       1       1   
4  1,111  5/31/2019   12/4/1904   1 to 9       1       1       1       1   
5  3,033  3/31/2015   5/18/1908   3 to 7       0       0       1       1   
6  3,033  3/31/2016  11/24/1905   3 to 7       0       0       1       1   
7  3,033  3/31/2017   1/20/1906   3 to 7       0       0       1       1   
8  3,033  3/31/2018    1/8/1906   2 to 7       0       1       1       1   
9  3,033   4/4/2019      2200,0   2 to 8       0       1       1       1   

   Type 5  Type 6  Type 7  Type 8  Type 9  Type 10  
0       1       1       1       1       1        1  
1       1       1       1       1       1        1  
2       1       1       1       1       1        1  
3       1       1       1       1       1        0  
4       1       1       1       1       1        0  
5       1       1       1       0       0        0  
6       1       1       1       0       0        0  
7       1       1       1       0       0        0  
8       1       1       1       0       0        0  
9       1       1       1       1       0        0

另一个非循环解决方案 - 想法是删除重复项，使用 get_dummies 创建新行, reindex用于添加缺失的列，最后添加 1 倍数 cumsum编辑值:

df1 = (df.set_index('active', drop=False)
        .pop('active')
        .drop_duplicates()
        .str.get_dummies(' to '))

df1.columns = df1.columns.astype(int)
df1 = df1.reindex(columns=np.arange(df1.columns.min(),df1.columns.max() + 1), fill_value=0)
df1 = (df1.cumsum(axis=1) * df1.iloc[:, ::-1].cumsum(axis=1)).clip_upper(1)
print (df1)
         1   2   3   4   5   6   7   8   9   10
active                                         
1 to 10   1   1   1   1   1   1   1   1   1   1
1 to 9    1   1   1   1   1   1   1   1   1   0
3 to 7    0   0   1   1   1   1   1   0   0   0
2 to 7    0   1   1   1   1   1   1   0   0   0
2 to 8    0   1   1   1   1   1   1   1   0   0

df = df.join(df1.add_prefix('Type '), on='active')
print (df)

      ID start_date    end_date   active  Type 1  Type 2  Type 3  Type 4  \
0  1,111  6/30/2015    8/6/1904  1 to 10       1       1       1       1   
1  1,111  6/28/2016   3/30/1905  1 to 10       1       1       1       1   
2  1,111  7/31/2017    6/6/1905  1 to 10       1       1       1       1   
3  1,111  7/31/2018    6/6/1905   1 to 9       1       1       1       1   
4  1,111  5/31/2019   12/4/1904   1 to 9       1       1       1       1   
5  3,033  3/31/2015   5/18/1908   3 to 7       0       0       1       1   
6  3,033  3/31/2016  11/24/1905   3 to 7       0       0       1       1   
7  3,033  3/31/2017   1/20/1906   3 to 7       0       0       1       1   
8  3,033  3/31/2018    1/8/1906   2 to 7       0       1       1       1   
9  3,033   4/4/2019      2200,0   2 to 8       0       1       1       1   

   Type 5  Type 6  Type 7  Type 8  Type 9  Type 10  
0       1       1       1       1       1        1  
1       1       1       1       1       1        1  
2       1       1       1       1       1        1  
3       1       1       1       1       1        0  
4       1       1       1       1       1        0  
5       1       1       1       0       0        0  
6       1       1       1       0       0        0  
7       1       1       1       0       0        0  
8       1       1       1       0       0        0  
9       1       1       1       1       0        0

关于python - 使用两个现有列创建和填充 Pandas 数据框列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52089554/

文章推荐： linux - 在 Linux 中使用静态库

文章推荐： css - 样式 ControlsFX 面包屑

文章推荐： python - 防止消息作者使用命令 Discord.py 提及自己

r - 现有 R 图中的子图
我有一个如下图所示的情节。对于这个情节，我想在情节(右下角或左下角)的某处添加类似的线图。我正在使用的子图的命令是 plot( 1:121, sample(1:121),type='l' ) 它绘制在
sql - 现有 SQL 数据库的规范化
我有一个单表数据库，我继承并迁移到 SQL Server，然后通过创建、链接和填充一大堆表示主表中项目的查找类型表来规范化它。我现在想用它们的外键替换原始表中的那些项目。我是不是一直在写一堆查询或 U
javascript - 在浏览器中编辑*现有* PDF
我有一个 Web 应用程序，它当前正在从服务器获取 PDF 的 base64 表示。我可以使用 Mozilla 的 pdf.js 在上显示它并使用下拉菜单切换页面。根据我所能找到的一切和Can
sql - 现有 DB2 列报告为不是表的列
在 DB2 上运行的 Moodle 2 安装中，删除用户不成功，返回从数据库读取错误: Debug info: [IBM][CLI Driver][DB2/LINUXX8664] SQL0206N "
grails - 现有 Controller 网址的HTTP状态404
我在grails项目的RH包中添加了一个名为Authorization的新域类。然后，我从grails菜单自动生成了 Controller 和 View 。但是当我尝试输入 Controller
plunker - 现有 Plunker 的副本
今天，我发现了一个有趣的plunker，经过谷歌大量搜索后一无所获，希望我能在这里找到答案。我只是想要那个笨蛋的副本。我不想使用复制和粘贴技术。有什么方法可以获取已建立的 plunk 的副本吗？我如何
ios - 现有 sqlite 数据库的核心数据
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: Migrate normal sqlite3 database to core data? 是否可以将现有的 sql
java - 现有 list (构建错误)
我正在尝试在我的应用程序上添加启动画面。我干净地构建了程序，但我选择了错误的文件。现在我第二次编辑了 VM 选项并再次干净构建，现在我收到此错误: C:\Users\User\Documents\Ne
ios - 现有 CollectionView 图像在滚动时发生变化
我已经查看了很多问题，我不相信这是重复使用单元格的结果，因为新的单元格图像是正确的，但是现有的单元格图像不正确并且曾经是正确的。我会先发布图片，以便更容易理解问题。我有一个图像单元的 Collect
java - 现有 key 的哈希表为空
我在来自 Vaadin 的 ContainerHierarchicalWrapper 的这段代码中有一个非常奇怪的错误: for (Object object : children.keySet())
javascript - 现有 JavaScript 应用程序的国际化和本地化
到目前为止，我正在使用 Globalize用于我的 JavaScript 应用程序的 i18n 和 l10n(使用 jQuery UI 构建)。这行得通，但它将我的代码与另一个特定的库联系在一起。现在
现有 JHipster 项目中的 Elasticsearch
我正在创建一个 JHipster 应用程序，现在确定了 full text search 的必要性.我知道 JHipster 与 Elasticseach 集成，但我在创建项目时没有启用它。有没有一种
mysql - 现有 mysql 表或单独表中的附加字段
我一直在寻找堆栈中的建议，但我仍然不能 100% 确定改进它的最佳方法。我有一个存储大约 130K 条记录的 mysql INNODB“产品”表。杂项产品数据等大约有 80 个字段，然后我们一直在为每
c++ - 使用另一个(现有)对象创建新对象时会发生什么？
我在一本书上看到，它说:当我们使用另一个初始化新创建的对象时 - 使用复制构造函数创建一个临时对象，然后使用赋值运算符将值复制到新对象! 后来在书中我读到:当使用另一个对象初始化新对象时，编译器创建一
python - 现有 Django 项目中的语法错误
我第一次安装现有的 Django 项目时遇到了启动服务器 python manage.py runserver 的问题这是我做的 1.克隆仓库， 2.制作虚拟环境 3.pip安装要求.txt 4.生
html - 现有 linux 用户登录网站
我有一个网站，还有一个登录表单。我不想使用 PHP 来检查我的 MySQL 数据库，因此我正在寻找一种方法来检查用户凭据以查看是否已有 Linux 用户。我知道 PAM，但我还没有找到任何有关如何从网
c# - 现有 Umbraco 项目的开发
我有一个现有的 Umbraco 项目在 IIS 服务器上运行。当我开始这个项目时，我基本上是将 Umbraco 直接安装到服务器上，并通过管理界面进行编码，直到网站启动并上线。现在，客户想要一些更改
android - 现有 Android 虚拟设备列表为空
我是 Android 开发新手，目前正在学习一些教程。当我在 Eclipse 中设置一个新的 Android 项目，并选择 Windows -> Android SDK and AVD Manager
java - 有效(现有)电子邮件地址验证
我有这个注册页面可以正常工作，但对于电子邮件字段，我需要确保电子邮件正确有效1:正确2 : 有效为了正确添加电子邮件，我正在使用 Java 脚本验证来维护abc@def.com 很好用但我的问题是
c# - 现有 COM 引用或添加新引用时出错
首先让我说我不熟悉 COM 引用，并且我在 Windows 7 64 位计算机上使用 VS2010。今天早上，我从 TFS 中删除了一个现有项目。然后我尝试构建项目并收到此错误: The type o

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 使用两个现有列创建和填充 Pandas 数据框列

我有什么:

我想要实现的目标