python - 基于列表复制 pandas 数据框中的行并用列表条目填充新列-6ren

python - 基于列表复制 pandas 数据框中的行并用列表条目填充新列

转载作者：行者123 更新时间：2023-11-30 22:11:21

24

4

我有一个关于在 pandas 数据框中复制行的问题。我已在列表中的“相关冲击”栏中为每个观察结果分配了相关日期。观察 22 有一个空列表，23 有一个日期的列表，24 有两个日期的列表，25 有三个日期的列表(如“liSTLength”列中所示)。

我的目标是通过以下方式扩展数据框:具有空列表的观测值保留在数据集中一行，而具有 x 个观测值的行被重复 x 次 - 因此，第 22 行和第 23 行应该保留在数据框中一次(22尽管列表为空，并且 23 是因为它有一个相关日期)，但第 24 行应该重复一次，因此在数据帧中出现两次，而观察 25 应该被复制两次，因此在数据帧中出现三次。因此，每一行在数据帧中出现的次数应该与它具有相关冲击的次数相同(通过列表长度来衡量)。除了列表长度为 0 的之外，它们仍应保留在数据帧中。

此外，我想创建一个新列“相关冲击”，由每个相关冲击单独填充一次。

这是当前的数据框:

    quarter year    pddate      relevant shocks                                                 listlength
22  1       2012    2012-02-15  []                                                              0.0
23  4       2011    2011-11-15  [2011-08-18 00:00:00]                                           1.0
24  3       2011    2011-08-15  [2011-08-18 00:00:00, 2011-09-22 00:00:00]                      2.0
25  2       2011    2011-05-13  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 2011-08-10 00:00:00  3.0

新的数据框应有 7 行，如下所示:

    quarter year    pddate      relevant shocks                                                 listlength    relevant shock
22  1       2012    2012-02-15  []                                                              0.0
23  4       2011    2011-11-15  [2011-08-18 00:00:00]                                           1.0           2011-08-18 00:00:00
24  3       2011    2011-08-15  [2011-08-18 00:00:00, 2011-09-22 00:00:00]                      2.0           2011-08-18 00:00:00
25  3       2011    2011-08-15  [2011-08-18 00:00:00, 2011-09-22 00:00:00]                      2.0           2011-09-22 00:00:00
26  2       2011    2011-05-13  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 2011-08-10 00:00:00  3.0           2011-08-04 00:00:00
27  2       2011    2011-05-13  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 2011-08-10 00:00:00  3.0           2011-08-08 00:00:00
28  2       2011    2011-05-13  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 2011-08-10 00:00:00  3.0           2011-08-10 00:00:00

所以基本的想法是添加新列“相关冲击”，遍历每一行，如果“相关冲击”中有空列表，则保持不变，如果“相关冲击”中有一个日期，也保持不变相关冲击”，但用该列表条目填充新列“相关冲击”，如果“相关冲击”中有两个列表条目，则复制它，并用两个列表条目之一填充每行中的“相关冲击”列，分别等等。

这可以用 Python 实现吗？

最佳答案

EDIT for pandas version >= 0.25，一种新方法 explode会很容易地完成这项工作:

#first create a copy of the column
df['relevant shock'] = df['relevant shocks']
#explode the new column
df = df.explode('relevant shock').fillna('')
print (df)
#same result than the one below

旧答案

在“相关冲击”列中，您可以使用 apply、pd.Series 和 stack 为每个日期创建一行，例如如:

df['relevant shocks'].apply(pd.Series).stack()
Out[448]: 
23  0    2011-08-18 00:00:00
24  0    2011-08-18 00:00:00
    1    2011-09-22 00:00:00
25  0    2011-08-04 00:00:00
    1    2011-08-08 00:00:00
    2    2011-08-10 00:00:00
dtype: object

我知道缺少一个空的，但是在您使用reset_index将结果join到您的df之后，fillna 并删除 额外的列。使用像这样的 df:

df = pd.DataFrame({'quarter':[1,2,3,4],
                   'relevant shocks':[[],['2011-08-18 00:00:00'],
                      ['2011-08-18 00:00:00', '2011-09-22 00:00:00'],
                      ['2011-08-04 00:00:00', '2011-08-08 00:00:00', '2011-08-10 00:00:00']]},
                   index=[22,23,24,25])

然后你就可以:

df = (df.join(df['relevant shocks'].apply(pd.Series).stack()
                                   .reset_index(1,name='relevant shock'))
         .fillna('').drop('level_1',1))

你会得到:

    quarter                                    relevant shocks  \
22        1                                                 []   
23        2                              [2011-08-18 00:00:00]   
24        3         [2011-08-18 00:00:00, 2011-09-22 00:00:00]   
24        3         [2011-08-18 00:00:00, 2011-09-22 00:00:00]   
25        4  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 201...   
25        4  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 201...   
25        4  [2011-08-04 00:00:00, 2011-08-08 00:00:00, 201...   

         relevant shock  
22                       
23  2011-08-18 00:00:00  
24  2011-08-18 00:00:00  
24  2011-09-22 00:00:00  
25  2011-08-04 00:00:00  
25  2011-08-08 00:00:00  
25  2011-08-10 00:00:00

编辑:似乎对于真实数据，空列表发生了错误，因此要解决它并在最后reset_index:

df = (df.join(df.loc[df['relevant shocks'].str.len() > 0, 'relevant shocks']
                .apply(pd.Series).stack().reset_index(1,name='relevant shock'))
        .fillna('').drop('level_1',1).reset_index(drop=True))

关于python - 基于列表复制 pandas 数据框中的行并用列表条目填充新列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51443124/

24

4

0

文章推荐： python - 我不小心删除了我的/usr/lib/python3.6/site-packages/*

文章推荐： python - Matplotlib Qt5Agg 后端未找到

perl - 如何使用Perl输入密码，并用'*'替换字符？
我有一个Perl脚本，要求用户输入密码。当用户键入字符时，我该如何仅回声“ *”代替用户键入的字符？我正在使用Windows XP / Vista。最佳答案您可以玩Term :: ReadKey
python - 从字符串中取出空格，并用 “+”替换它们
This question already has answers here: How to urlencode a querystring in Python? (13个回答) 7年前关闭。我正在
php - 我想在一个单独的列中插入多封电子邮件，并用 # 分隔
关闭。这个问题需要details or clarity .它目前不接受答案。想改进这个问题吗？通过 editing this post 添加细节并澄清问题. 关闭 7 年前。 Improve t
javascript - 获取要替换的独立正斜杠，并用 span 标签包围
我希望能够检测 h1 中的“/”标签，并将其替换为，其中.slash将充当分隔符。 var div = $('h1'); div.html(div.html().replace(/\//g, '/
java - 将一串多个句子拆分成单个句子，并用 html 标签包围它们
我是一名 Java 初学者，目前正在寻找一种分割字符串的方法 message根据分隔符 (.) 划分为子字符串。理想情况下，我有单个句子，并且我想将每个句子包装在 HTML 标签中，即。 e. 。
php 并用 html 标签回显字符串。字符串空间截断字符串并且也不能作为替换
MySql:我的产品表设置如下: pg_id |页面名称 1 |披萨馅饼 2 | child 菜单 Php:在循环遍历 MySQL 表中的记录时回显 html。 "; ?> 我
c++ - getline 并用 cout 打印
我正在尝试一次读取一个文本文件并将每一行打印到终端窗口。我正在使用 g++ 在 mac 上编译，例如 g++ cpp3.cpp -o cpp3。文本文件如下所示: 20100000001 20100
bash - sed 并用 $variable 替换字符串
这个问题在这里已经有了答案: sed fails with "unknown option to `s'" error [closed] (1 个回答) 关闭 7 年前。我有个小问题。我尝试用文
linux - 检测到一个新文件，并用 mpack 发送它
我有一个非常具体的问题。我正在使用 Debian。我有一个 FTP 文件夹，应用程序将在其中上传 pdf 文件，该文件将存储在 ftpfolder/EMAIL_ADDRESS 中，文件名将是 CURR
python - Groupby 并用 Pandas 中之前和之后值的平均值填充 NaN
我尝试使用其 before 和 after 值的 means 填充 NaN 单元格。 type date v1 v2 0 a 2018-09 215
python - 我试图在无摩擦的地板上模拟一个质量，并用 Spring 固定在一端。不工作
我在上述模拟中使用 SHM 的标准微分方程，a = -w^2*x。我正在使用 Python，并以 odeint 作为求解器。尽管对其进行了多次编辑，我仍然将输出视为直线而不是正弦曲线。代码是: fro
java - 如何获取一串字母(用户输入)并用 X 分隔所有重复字符？
System.out.print("Enter the message to encrypt: "); message = s.next().toString(); // this mess
android - 创建自定义 LinearLayout 并用 View 填充它
我有一个主要的 LinearLayout ，在 main.xml 文件中，在 Activity 中设置 ( setContentView )。入主LinearLayout我想添加 1-X 自定义 Li

javascript - 过滤掉

 并用  括起来是否安全？
									一些用户生成的文本(可能包含脚本/代码)将向公众展示。如果我过滤掉所有 和标记并用  将结果文本括起来和 ，用户提交的脚本有机会被执行吗？ 请给我一个如何破解这个保护方案的例子。 最佳答案 Is it

javascript - 在元素内查找 { 或 } 并用 span 包裹它们
{abc def ghi} 我已经通过在比较它是否是 { 或 } 之前先跨度包装所有字符来完成此操作。但这太慢了，我需要反转该过程，是否可以获取相对于父 div 的 cha
ios - 你能继承 UITabBarItem 并用 xib 文件设置它吗？
我想创建一个自定义 UITabBarItem 并使用 xib 文件设置其 UI，就像常规 UIView 一样。我尝试在 UITabBarItem 上创建一个子类，但创建 xib 文件的选项不可用。
jquery - 迭代
并用 jquery 替换文本
我有以下 HTML 结构: Text 1 Text 2 Text 3 Text 4 Text 5 我想找到一个包含“4”
javascript - 如何获取选定的文本 ID 并用 javascript 保持标签完整替换文本？
我正在逐字创建着色工具。基本上用户可以从单词中选择几个字母并将它们分开着色，因此一个单词可以有 2 种或更多颜色。为了跟踪所有单词，它们都有 ID，我想知道我怎么知道选择了哪些字母以及所选单词有哪些
python re.compile 并用 ÆØÅ 字符拆分
我是 Python 的新手。我确实有一个包含单词列表的文件。它们包含丹麦字母 (ÆØÅ)，但 re.compile 不理解这些字符。该函数按每个 ÆØÅ 拆分单词。文本是从 Twitter 和 Fac
C#如何在字符串中找到多余的 ) 或 ( 括号，并用@替换它们
C#如何在字符串中找到多余的)或(括号，并替换为@ 示例输入 )(more))) ((((more))) ((((more)) (about)((index)(more))) (about)((ind

首页

博学

6Ren·AI

商城

python - 基于列表复制 pandas 数据框中的行并用列表条目填充新列