gpt4 book ai didi

python - 在数据框中拆分、删除空格和分解字符串

转载 作者:行者123 更新时间:2023-12-02 17:56:46 27 4
gpt4 key购买 nike

我目前正在研究反射(reflect)当前赛程的大学篮球网络抓取数据。我正在抓取这些数据的网站以一种奇怪的方式格式化了它,所以我试图将它们分开以便对我的目的有意义。

数据是这样进来的:

<表类="s-表"><头>对决时间<正文>#15 Marquette 在#12 Creighton晚上 8:30#20 爱荷华州在#10 得克萨斯州晚上 9:00#3 Tennessee at #30 Texas A&M下午 7:00

在一个完美的场景中,我想在“at”实例中拆分数据,以便我可以区分 Home 和 Away,删除不需要的团队排名,确保从拆分字符串中删除所有空格以保持清洁,并在 explode 后声明 1 次而不是 2 次。

我想要实现的示例设计:

<表类="s-表"><头>对决时间<正文>马凯特晚上 8:30克赖顿爱荷华州晚上 9:00德克萨斯州田纳西州下午 7:00德州农工大学

我是这样拆分的:

df['Matchup'] = df['Matchup'].str.split(' at ', n=1, expand=False)

但在那之后空白看起来仍然存在。然后我进行了 explode ,这让我接近最终结果,除了它有重复的时间并且字符串还没有完全格式化。

df = df.explode('Matchup')

最佳答案

这是使用 pandas.Series.str.replace() 的替代方法

df[['Away', 'Home']] = df['Matchup'].str.split(' at ', n=1, expand=True)
df['Away'] = df['Away'].str.replace(r'#\d+ ','').str.strip()
df['Home'] = df['Home'].str.replace(r'#\d+ ','').str.strip()

df = df.drop('Matchup', axis=1)[['Away', 'Home', 'Time']]
print(df)

         Away       Home     Time
0 Marquette Creighton 8:30 PM
1 Iowa State Texas 9:00 PM
2 Tennessee Texas A&M 7:00 PM

关于python - 在数据框中拆分、删除空格和分解字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75526717/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com