gpt4 book ai didi

python - 遍历 pandas 中的行并计算唯一的主题标签

转载 作者:太空宇宙 更新时间:2023-11-04 07:28:16 25 4
gpt4 key购买 nike

我有一个包含数千条推文的 csv 文件。假设数据如下:

Tweet_id   hashtags_in_the_tweet

Tweet_1 [trump, clinton]
Tweet_2 [trump, sanders]
Tweet_3 [politics, news]
Tweet_4 [news, trump]
Tweet_5 [flower, day]
Tweet_6 [trump, impeach]

如您所见,数据包含 tweet_id 和每条推文中的主题标签。我想要做的是去所有的行,最后给我一些像值计数的东西:

Hashtag    count
trump 4
news 2
clinton 1
sanders 1
politics 1
flower 1
obama 1
impeach 1

考虑到 csv 文件包含 100 万行(100 万条推文),执行此操作的最佳方法是什么?

最佳答案

使用np.unique

v,c=np.unique(np.concatenate(df.hashtags_in_the_tweet.values),return_counts=True)

#pd.DataFrame({'Hashtag':v,'Count':c})

即使问题看起来不同,但仍然相关unnesting问题

unnesting(df,['hashtags_in_the_tweet'])['hashtags_in_the_tweet'].value_counts()

关于python - 遍历 pandas 中的行并计算唯一的主题标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53530816/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com