gpt4 book ai didi

python - 在 DataFrame 中多次拆分字符串

转载 作者:太空宇宙 更新时间:2023-11-03 12:26:05 31 4
gpt4 key购买 nike

我在 DataFrame 中有一列,其中包含一个字符串,我必须从中通过不同的分隔符检索两条信息:

ID  STR
280 11040402-38.58551%;11050101-9.29086%;11070101-52.12363%
351 11130203-35%;11130230-65%
510 11070103-69%
655 11090103-41.63463%;11160102-58.36537%
666 11130205-50.00%;11130207-50%

我一直在尝试将本系列中的 .apply 方法与 lambda 函数一起使用,以一次性完成拆分,但无济于事:

df['STR'].apply(lambda x: y.split('-') for y in x.split(';'))

理想情况下,我不仅能够一次性拆分字符串,而且还能将 - 的左侧与右侧分开:

ID  STR.LEFT                       STR.RIGHT
280 [11040402, 11050101, 11070101] [38.58551%, 9.29086%, 52.12363%]
351 [11130203, 11130230] [35%, 65%]
510 [11070103] [69%]
655 [11090103, 11160102] [41.63463%, 58.36537%]
666 [11130205, 11130207] [50.00%, 50%]

我相信这可以通过 .apply 和切片来实现,但欢迎任何其他解决方案。

最佳答案

你可以尝试拆分几次:

# set ID as index
df.set_index('ID', inplace=True)


new_series = df.STR.str.split(';', expand=True).stack().reset_index(level=-1,drop=True)

new_df = new_series.str.split('-', expand=True)

new_df.groupby('ID').agg(list).reset_index()

输出:

      ID  0                                     1
-- ---- ------------------------------------ --------------------------------------
0 280 ['11040402', '11050101', '11070101'] ['38.58551%', '9.29086%', '52.12363%']
1 351 ['11130203', '11130230'] ['35%', '65%']
2 510 ['11070103'] ['69%']
3 655 ['11090103', '11160102'] ['41.63463%', '58.36537%']
4 666 ['11130205', '11130207'] ['50.00%', '50%']

关于python - 在 DataFrame 中多次拆分字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56428430/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com