python - 使用另一列上的拆分有条件地填充新列-6ren

python - 使用另一列上的拆分有条件地填充新列

转载作者：行者123 更新时间：2023-12-01 00:37:07

26

4

我有一个数据框

df = pd.DataFrame({'col1': [1,2,1,2], 'col2': ['aa bb cc', 'ee-ff-gg', 'hh ii kk', 'll-mm-nn']})

我想要:

在“”上拆分 col2，其中 col1==1
在“-”处拆分，其中 col1==2
将此数据附加到 3 个新列:(col20、col21、col22)

理想情况下，代码如下所示:

subdf=df.loc[df['col1']==1]
#list of columns to use
col_list=['col20', 'col21', 'col22']
#append to dataframe new columns from split function
subdf[col_list]=(subdf.col2.str.split(' ', 2, expand=True)

但这并没有奏效。

我尝试过使用合并和加入，但是:

如果列已填充，则连接不起作用
如果不是，则合并不起作用。

我也尝试过:

#subset dataframes
subdf=df.loc[df['col1']==1]
subdf2=df.loc[df['col1']==2]

#trying the join method, only works if columns aren't already present
subdf.join(subdf.col2.str.split(' ', 2, expand=True).rename(columns={0:'col20', 1:'col21', 2: 'col22'}))
#merge doesn't work if columns aren't present
subdf2=subdf2.merge(subdf2.col2.str.split('-', 2, expand=True).rename(columns={0:'col20', 1:'col21', 2: 'col22'}))
subdf2

运行时的错误消息:

subdf2=subdf2.merge(subdf2.col2.str.split('-', 2, expand=True).rename(columns={0:'col20', 1:'col21', 2: 'col22'})

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

编辑马克对正则表达式的评论后给出的信息

我原来的 col1 实际上是我用来从某些字符串中提取 col2 的正则表达式组合。

#the combination I used to extract the col2
combinations= ['(\d+)[-](\d+)[-](\d+)[-](\d+)', '(\d+)[-](\d+)[-](\d+)'... ]

这是原始数据框

col1                          col2 
(\d+)[-](\d+)[-](\d+)[-](\d+) 350-300-50-10 
(\d+)[-](\d+)[-](\w+)(\d+)    150-180-G31

然后我创建了一个字典，将每个组合连接到 col2 的分割值所代表的内容:

filtermap={'(\d+)[-](\d+)[-](\w+)(\d+)': 'thickness temperature sample', '(\d+)[-](\d+)[-](\d+)[-](\d+)': 'thickness temperature width height' }

使用这个过滤器我想要:

根据正则表达式组合对数据帧进行子集化
在 col2 上使用 split 来查找与使用 filtermap 的组合相对应的值(厚度温度..)
将这些值添加到数据框上的新列

col1                          col2           thickness temperature width length sample
(\d+)[-](\d+)[-](\d+)[-](\d+) 350-300-50-10  350       300         50    10
(\d+)[-](\d+)[-](\w+)(\d+)    150-180-G31    150       180                        G31

既然您提到了正则表达式，也许您知道直接执行此操作的方法？

编辑2；输入输出

在输入中有这样的字符串:

'this is the first example string 350-300-50-10 ', 
'this is the second example string 150-180-G31'

格式为:

数字-数字-数字-数字(350-300-50-10)中包含以下有序信息:厚度(350)-温度(300)-宽度(50)-长度(10)
数字-数字-字母数字 (150-180-G31 ) 中包含以下有序信息:厚度-温度-样本

期望的输出:

col2,          thickness, temperature, width, length, sample 

350-300-50-10  350        300          50     10       None
150-180-G31    150        180          None   None     G31

我用过例如:

re.search('(\d+)[-](\d+)[-](\d+)[-](\d+)'))

查找字符串中的 col2

最佳答案

您可以使用np.where来简化这个问题。

import pandas as pd
import numpy as np
df = pd.DataFrame({'col1': [1,2,1,2],
                   'col2': ['aa bb cc', 'ee-ff-gg', 'hh ii kk', 'll-mm-nn']
                   })


temp = np.where(df['col1'] == 1, #a boolean array/series indicating where the values are equal to 1.
                df['col2'].str.split(' '), #Use the output of this if True
                df['col2'].str.split('-') #Else use this.
                )

temp_df = pd.DataFrame(temp.tolist()) #create a new dataframe with the columns we need
#Output:
    0   1   2
0  aa  bb  cc
1  ee  ff  gg
2  hh  ii  kk
3  ll  mm  nn

现在只需将结果赋回原始 df 即可。您可以使用 concat 或 join，但简单的赋值也足够了。

df[[f'col2_{i}' for i in temp_df.columns]] = temp_df

print(df)
   col1      col2 col2_0 col2_1 col2_2
0     1  aa bb cc     aa     bb     cc
1     2  ee-ff-gg     ee     ff     gg
2     1  hh ii kk     hh     ii     kk
3     2  ll-mm-nn     ll     mm     nn

<小时/>

编辑:解决两个以上的条件分割

如果您需要两个以上的条件，np.where 仅设计用于二元选择。您可以选择“自定义”方法，该方法可在此处处理任意数量的拆分。

splits = [ ' ', '-', '---']
all_splits = pd.DataFrame({s:df['col2'].str.split(s).values for s in splits})
#Output:
                            -         ---
0  [aa, bb, cc]    [aa bb cc]  [aa bb cc]
1    [ee-ff-gg]  [ee, ff, gg]  [ee-ff-gg]
2  [hh, ii, kk]    [hh ii kk]  [hh ii kk]
3    [ll-mm-nn]  [ll, mm, nn]  [ll-mm-nn]

首先，我们在所有拆分上拆分df['col2']，而不进行扩展。现在，问题只是根据df['col1']

的值选择正确的 list

我们可以使用 numpy 的高级索引来实现此目的。

temp = all_splits.values[np.arange(len(df)), df['col1']-1]

此后，步骤应与上面相同，从创建 temp_df

关于python - 使用另一列上的拆分有条件地填充新列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57648959/

26

4

0

文章推荐： python - 根据 django 网站上的操作显示用户上个月的进度

文章推荐： python - 用户定义的函数似乎是过去输入的两倍

文章推荐： python - 删除 PIP 中所有已失效依赖者的包

html - 填充 :initial vs. 填充:0
padding:initial 比 padding:0 有什么优势吗？示例: textarea { padding: 0; } Hello, world! 最佳答案它们的意思是一
java - 使用 JButton 填充 JList 并使用 Jlist 上的 DoubleClick 填充 JTextField
我尝试通过按钮填充 JList，然后在先前填充的 Jlist 上使用 DoubleClick 填充 JTextField。代码: private void extractUsedVariables
jquery添加宽度+填充；
我正在尝试做 var width = ($(this).width() + $(this).css('padding-left') + $(this).css('padding-right' ))；
CSS悬停没有文本边距/填充
我在导航中添加了悬停效果，遗憾的是悬停也影响了上面的文字。如何在不影响文本位置的情况下向导航添加悬停？可悲的是，我找不到解决这个问题的方法。 HTML 模板:http://projects.help
F# printf 填充
我是 F# 初学者，下面代码中的 %-5s 和 %5s 有什么作用？我认为它提供了空间填充，但我不确定它是如何填充的？ printfn "%-5s %5s" "a" "b" 当我尝试 prin
Sails.js 填充 where
我需要选择带狗的用户(带 type 等于“狗”的宠物) var User = Waterline.Collection.extend({ identity: 'user', attribute
excel - 如何使用具有一系列值的自动填充/填充
我一直在尝试让 Excel 在一组列上应用公式，然后将模式扩展到整个行集。这导致了以下代码: For i = 0 To avgsheetNames.Count - 1 If Contains(CSt
Flutter TextButton 填充
随着 Flutter 2.0 的发布，FlatButton已被替换为 TextButton . 因此，填充属性不再直接可用，而是作为 ButtonStyle属性(property)。我的问题是，我该
wpf - WPF中的对接/填充
这似乎是一个简单的问题，但我已经尝试了一个小时，似乎无法弄清楚。我要做的就是用 Canvas 填充 MainWindow。我找不到任何允许这样做的属性，我能想到的唯一方法是设置 Canvas.Wid
iPhone 添加了奇怪的左边距/填充
这是a website具有移动 View 。网站宽度为 640 像素，但 iPhone 以 678 像素渲染文档。在 Android 中看起来很棒。我添加了视口(viewport)元: 主体 C
java - GridBagLayout 填充
我正在使用 GridBagLayout到(当前)显示两行。我知道这种布局对于这项任务来说太过分了，但我正在努力学习如何使用它。问题是我已将两个面板添加到两个单独的行中，并且内容周围存在巨大差距(请参见
javascript - 单击更改谷歌地图多边形颜色/填充
我有以下代码已传递给我并创建多边形: var map; function initialize() { var myLatlng = new google.maps.LatLng(-36.4
java - 填充 JPanel
我在 Jpanel 中有一些项目，然后将其推到顶部并用作基本搜索引擎的工具栏。我遇到一个问题，因为没有足够的空间，所以我的最后一个组合框没有显示。但是，左侧有很多空白空间，我需要移动所有内容来填充 J
c++ - 如何为二进制图像中的形状重新着色以进行索引(填充)？
我创建了带有阈值的二进制图像。如下图所示如何改变白色形状的颜色以使其可索引？到目前为止，这是我的代码: void threshold() { cv::Mat src_8uc3_img = c
java - 填充 JTable
我有一个 JTable，我想知道是否有更好的方法来填充它，这是我的代码: //Metodo para llenar un jtable con datos de la base public stat
python - 从卷中裁剪空数组(填充)
我想要做的是裁剪一个卷以删除所有不相关的数据。例如，假设我有一个 100x100x100 的体积，其中填充了 0，但其中的 50x50x50 体积则填充了 1。如何从原始体积中获得裁剪后的 50x50
Java ArrayList 填充
因此，我正在创建一种对一组数字进行洗牌的方法，其想法是创建这些数字的总体。因此，我创建了一个循环，对数字进行洗牌，然后将其添加到数组列表中，但是经过一些调试语句后，我发现它确实对数字进行洗牌，但只将最
c# - 静态集合是否保证在另一个类使用它之前被初始化/填充？
假设我有这两个类: public class A where T : IEntityWithID, new() { private static EntityInfo entityInfo =
C 中大整型加法中的进位数字/填充
我正在尝试添加用户输入的两个大整数作为字符串。当两个输入字符串的长度不同时，我尝试用零填充较短的数字，但它不起作用。因此，如果我输入 456 和 7，它会给出 3，前面有一些随机字符。感谢您的任何建议
arrays - 填充 UITableViewController
这是我将内容打印到表格 View 的代码 override func tableView(_ tableView: UITableView, cellForRowAt indexPath: Index

首页

博学

6Ren·AI

商城