gpt4 book ai didi

python - 如何在 python 中使用正则表达式选择字符串之间的值并放置在数据框的列中

转载 作者:太空狗 更新时间:2023-10-30 01:27:36 24 4
gpt4 key购买 nike

我有一个大型数据框,其中包含标题为“评论”的列

在评论部分,我需要提取 3 个值并放入单独的列中,即(占空比、气体和压力)

“占空比数据收集开始:0,气体:真空压力:0.000028托”

目前我正在使用 .split 和 .tolist 来解析字符串 ->

#split string and sort into columns 
df1 = pd.DataFrame(eventsDf.comment.str.split().tolist(),columns="0 0 0 0 0 0 dutyCycle 0 Gas 0 Pressure 0 ".split())

#join dataFrames
eventsDf = pd.concat([eventsDf, df1], axis=1)

#drop columns not needed
eventsDf.drop(['comment','0',],axis=1,inplace=True)

我发现这种方法相当“hacky”,因为如果评论部分的结构发生变化,我的代码将毫无用处……谁能告诉我更有效/更可靠的方法来做这件事?非常感谢!

最佳答案

使用带有正则表达式的 str.extract

regex = r'Duty Cycle: (?P<Duty_Cycle>\d+), Gas: (?P<Gas>\w+) Pressure: (?P<Pressure>\S+) Torr'
df1 = eventsDf.comment.str.extract(regex, expand=True)
df1

enter image description here

关于python - 如何在 python 中使用正则表达式选择字符串之间的值并放置在数据框的列中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38228163/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com