gpt4 book ai didi

pandas - 如何按 Pandas 数据框中的单词对统计信息进行分组

转载 作者:行者123 更新时间:2023-12-04 00:42:52 25 4
gpt4 key购买 nike

我想按单词对 Pandas 数据框进行聚合。

基本上有 3 列带有相应短语的点击/印象计数。我想将短语拆分为标记,然后总结他们对标记的点击,以决定哪个标记相对好/坏。

预期输入: Pandas 数据框如下

   click_count  impression_count    text
1 10 100 pizza
2 20 200 pizza italian
3 1 1 italian cheese

预期输出:
   click_count  impression_count  token
1 30 300 pizza // 30 = 20 + 10, 300 = 200+100
2 21 201 italian // 21 = 20 + 1
3 1 1 cheese // cheese only appeared once in italian cheese

最佳答案

tokens = df.text.str.split(expand=True)
token_cols = ['token_{}'.format(i) for i in range(tokens.shape[1])]
tokens.columns = token_cols

df1 = pd.concat([df.drop('text', axis=1), tokens], axis=1)
df1

enter image description here
df2 = pd.lreshape(df1, {'tokens': token_cols})
df2

enter image description here
df2.groupby('tokens').sum()

enter image description here

关于pandas - 如何按 Pandas 数据框中的单词对统计信息进行分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39236066/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com