gpt4 book ai didi

python - 从 Pandas 数据框中提取并计算每行的唯一主题标签

转载 作者:太空宇宙 更新时间:2023-11-03 15:44:51 25 4
gpt4 key购买 nike

我有一个 pandas 数据框 df,其中有一个字符串列 Posts,如下所示:

df['Posts']
0 "This is an example #tag1"
1 "This too is an example #tag1 #tag2"
2 "Yup, still an example #tag1 #tag1 #tag3"

当我尝试使用以下代码来计算主题标签的数量时,

count_hashtags = df['Posts'].str.extractall(r'(\#\w+)')[0].value_counts()

我明白了,

#tag1             4
#tag2 1
#tag3 1

但我需要计算每行唯一主题标签的结果,如下所示:

#tag1             3
#tag2 1
#tag3 1

最佳答案

使用 drop_duplicates 去除每个帖子的重复标签,然后您可以使用 value_counts

df.Posts.str.extractall(
r'(\#\w+)'
).reset_index().drop_duplicates(['level_0', 0])[0].value_counts()

level=0 传递给 reset_index 的较短替代方案

df.Posts.str.extractall(
r'(\#\w+)'
).reset_index(level=0).drop_duplicates()[0].value_counts()

两者都会输出:

#tag1    3
#tag3 1
#tag2 1
Name: 0, dtype: int64

关于python - 从 Pandas 数据框中提取并计算每行的唯一主题标签,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50582305/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com