gpt4 book ai didi

python - 将 pandas 中的 Topic-name 和 Description 转换为 Topic-Name、Words 和 Frequency

转载 作者:行者123 更新时间:2023-12-04 03:38:27 27 4
gpt4 key购买 nike

我有一个由主题名称、描述组成的 Pandas 数据框

Original Data

我正在尝试将其转换为主题名称、单词(出现在描述列中)及其频率

Expected Result

我已经试过了,但它只给了我描述的单词和频率,而不是主题名称级别。

import nltk
top_N = 4
a = df['ParsedText'].str.cat(sep=' ')
nltk.download('punkt')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)
rslt = pd.DataFrame(word_dist.most_common(top_N),
columns=['Word', 'Frequency'])
print(rslt)
  • 解析的文本是描述列

最佳答案

你可以试试:

(df.assign(Description=df.Description.str.split()).explode()
.groupby('TopicName')['Description'].value_counts()
.reset_index(name='Frequency')
)

关于python - 将 pandas 中的 Topic-name 和 Description 转换为 Topic-Name、Words 和 Frequency,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66496509/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com