我有一个数据农场,如下所示
data = pd.DataFrame({'Name': ['CTA15;CTA16;CAR;', 'AC007;AC008;GOO7;G008;F009', 'AC09;BC09;C09;V09;B0P', 'UF09;GF09;HF09;MN08'],
'Sample':['JAK_1', 'TOR2', 'Gilo', 'ALR']})
data
Name Sample
0 CTA15;CTA16;CAR; JAK_1
1 AC007;AC008;GOO7;G008;F009 TOR2
2 AC09;BC09;C09;V09;B0P Gilo
3 UF09;GF09;HF09;MN08 ALR
我需要将 Name 列拆分成一个新行,并相应地在 Sample 列中添加值。最后,我的目标是拥有这样的数据框,
Name Sample
0 CTA15 JAK_1
1 CTA16 JAK_1
2 CAR JAK_1
3 AC007 TOR2
4 AC008 TOR2
5 GOO7 TOR2
6 G008 TOR2
7 F009 TOR2
8 AC09 Gilo
9 BC09 Gilo
10 C09 Gilo
11 V09 Gilo
12 B0P Gilo
13 UF09 ALR
14 GF09 ALR
15 HF09 ALR
16 MN08 ALR
我需要用';'分开到新行中,并将 Sample 列中的值相应地添加到每个。
您可以使用 str.strip
用于删除 ;
在一些字符串的开头和结尾,str.split
对于 list
,然后得到 len
对于它们的 length
。
最后通过 constructor
使用 numpy.repeat
创建新的 DataFrame
和 numpy.concatenate
:
vals = data['Name'].str.strip(';').str.split(';')
l = vals.str.len()
df = pd.DataFrame({'Sample':np.repeat(data['Sample'].values, l),
'Name':np.concatenate(vals.values)})
print (df)
Name Sample
0 CTA15 JAK_1
1 CTA16 JAK_1
2 CAR JAK_1
3 AC007 TOR2
4 AC008 TOR2
5 GOO7 TOR2
6 G008 TOR2
7 F009 TOR2
8 AC09 Gilo
9 BC09 Gilo
10 C09 Gilo
11 V09 Gilo
12 B0P Gilo
13 UF09 ALR
14 GF09 ALR
15 HF09 ALR
16 MN08 ALR
替代方案:
df = data.join(data.pop('Name')
.str.strip(';')
.str.split(';', expand=True)
.stack()
.reset_index(level=1, drop=True)
.rename('Name')).reset_index(drop=True)
print (df)
Sample Name
0 JAK_1 CTA15
1 JAK_1 CTA16
2 JAK_1 CAR
3 TOR2 AC007
4 TOR2 AC008
5 TOR2 GOO7
6 TOR2 G008
7 TOR2 F009
8 Gilo AC09
9 Gilo BC09
10 Gilo C09
11 Gilo V09
12 Gilo B0P
13 ALR UF09
14 ALR GF09
15 ALR HF09
16 ALR MN08
我是一名优秀的程序员,十分优秀!