gpt4 book ai didi

python - 计数没有。数据框中一列的每一行中的标记

转载 作者:行者123 更新时间:2023-12-05 03:54:53 25 4
gpt4 key购买 nike

我有一个包含类似格式数据的数据框

    song                    lyric                                tokenized_lyrics
0 Song 1 Look at her face, it's a wonderful face [look , at , her ,face, it's a wonderful, face ]
1 Song 2 Some lyrics of the song taken [Some, lyrics ,of, the, song, taken]

我想计算每首歌歌词中的单词数和类似的输出

song     count
song 1 8
song 2 6

我试过聚合函数,但它没有产生正确的结果。

我试过的代码:

df.groupby(['song']).agg(
word_count = pd.NamedAgg(column='text' , aggfunc = 'count' )
)

怎样才能达到预期的效果

最佳答案

我无法将 tokenized_lyrics 复制为列表,它以字符串的形式出现,所以我将歌词标记化,并假设分隔符是一个空格:

df['token_count'] = df.lyric.str.replace(',','').str.split().str.len()
df.filter(['song','token_count'])

song token_count
0 Song 1 8
1 Song 2 6

请注意,您可以申请 string len到标记化的歌词以获得您的计数,因为它是一个列表,它将计算单个项目

关于python - 计数没有。数据框中一列的每一行中的标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60649643/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com