gpt4 book ai didi

python - 如何提取 Pandas 数据框列中的字符串部分

转载 作者:行者123 更新时间:2023-12-04 08:16:28 25 4
gpt4 key购买 nike

我有一个数据框 df,我希望列中值的特定分隔显示第一个单词和数字及其 'T' 值(value)。我要第一个由“-”分隔的“单词”及其#T值。 除了“Azure”案例 , 其中第一个单词由“_”分隔
很棘手,因为某些 #T 值用“-”分隔,其他人被隔开
'_'

前任。 -12T 在其中一个值中,以及 _14T 在另一个值
我想保留类型列中的原始值
样本数据

data = {'type': ['Azure_Standard_E64is_v4_SPECIAL_DB-A.0', 'Azure_Standard_E64is_v4_SPECIAL_DB-A.0', 'Hello-HEL-HE-A6123-123A-12T_TYPE-v.A', 'Hello-HEL-HE-A6123-123A-12T_TYPE-v.E', 'Hello-HEL-HE-A6123-123A-50T_TYPE-v.C', 'Hello-HEL-HE-A6123-123A-50T_TYPE-v.A', 'Happy-HAP-HA-R650-570A-90T_version-v.A', 'Kind-KIN-KI-T490-NET_14T-A.0', 'Kind-KIN-KI-T490-NET_14T-A.0', 'AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A', 'AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A'], 'free': [6, 5, 10, 5, 1, 2, 10, 7, 6, 3, 0], 'use': [1, 1, 10, 1, 4, 1, 0, 4, 3, 0, 20], 'total': [7, 6, 20, 6, 5, 1, 10, 3, 2, 3, 20]}
df = pd.DataFrame(data)


type free use total
0 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 6 1 7
1 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 5 1 6
2 Hello-HEL-HE-A6123-123A-12T_TYPE-v.A 10 10 20
3 Hello-HEL-HE-A6123-123A-12T_TYPE-v.E 5 1 6
4 Hello-HEL-HE-A6123-123A-50T_TYPE-v.C 1 4 5
5 Hello-HEL-HE-A6123-123A-50T_TYPE-v.A 2 1 1
6 Happy-HAP-HA-R650-570A-90T_version-v.A 10 0 10
7 Kind-KIN-KI-T490-NET_14T-A.0 7 4 3
8 Kind-KIN-KI-T490-NET_14T-A.0 6 3 2
9 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 3 0 3
10 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 0 20 20
欲求:
   Name                                          type                free   use  total

Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 6 1 7
Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 5 1 6
Hello-HEL-HE-A6123-123A-12T_TYPE-v.A Hello 12T 10 10 20
Hello-HEL-HE-A6123-123A-12T_TYPE-v.E Hello 12T 5 1 6
Hello-HEL-HE-A6123-123A-50T_TYPE-v.C Hello 50T 1 4 5
Hello-HEL-HE-A6123-123A-50T_TYPE-v.A Hello 50T 2 1 1
Happy-HAP-HA-R650-570A-90T_version-v.A Happy 90T 10 0 10
Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 7 4 3
Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 6 3 2
AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 3 0 3
AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 0 20 20

做:
df['type']= df['type'].str.extract(r'(^\w+.\d|^\w+)')+' '+df['type'].str.extract(r'(\d.\d+T|\d+T)')
这适用于以下 , 但是,'AZURE' 值消失了,并且不保持原始值 .
我仍在研究这个,任何帮助表示赞赏。

最佳答案

您可以使用 Series.str.replace Series.str.cat 最后添加 Series.str.strip , 还添加了 expand=False Series.str.extract Series .
对于第二个位置的新列使用 DataFrame.insert .

s = (df['type'].str.replace('_','-')
.str.extract(r'(^\w+.\d|^\w+)', expand=False)
.str.cat(df['type'].str.extract(r'(\d.\d+T|\d+T)', expand=False),
sep=' ',
na_rep='')
.str.strip())
感谢@Trenton McKinney 提供另一种解决方案 - 拆分值并获取列表的第一个值:
s = (df['type'].str.split('_|-')
.str[0]
.str.cat(df['type'].str.extract(r'(\d.\d+T|\d+T)', expand=False),
sep=' ',
na_rep='')
.str.strip())

df = df.rename(columns={'type': 'Name'})
df.insert(1, 'type', s)
print (df)
Name type free use total
0 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 6 1 7
1 Azure_Standard_E64is_v4_SPECIAL_DB-A.0 Azure 5 1 6
2 Hello-HEL-HE-A6123-123A-12T_TYPE-v.A Hello 12T 10 10 20
3 Hello-HEL-HE-A6123-123A-12T_TYPE-v.E Hello 12T 5 1 6
4 Hello-HEL-HE-A6123-123A-50T_TYPE-v.C Hello 50T 1 4 5
5 Hello-HEL-HE-A6123-123A-50T_TYPE-v.A Hello 50T 2 1 1
6 Happy-HAP-HA-R650-570A-90T_version-v.A Happy 90T 10 0 10
7 Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 7 4 3
8 Kind-KIN-KI-T490-NET_14T-A.0 Kind 14T 6 3 2
9 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 3 0 3
10 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A AY14.5 6.4T 0 20 20

关于python - 如何提取 Pandas 数据框列中的字符串部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65678598/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com