gpt4 book ai didi

python - 获取包含字符串列表的 Pandas 列的词频

转载 作者:行者123 更新时间:2023-12-05 00:54:40 24 4
gpt4 key购买 nike

我有一个 Pandas 数据框:

import pandas as pd
test = pd.DataFrame({'words':[['foo','bar none','scare','bar','foo'],
['race','bar none','scare'],
['ten','scare','crow bird']]})

我正在尝试获取数据框列中所有列表元素的单词/短语计数。我目前的解决方案是:

allwords = []

for index, row in test.iterrows():
for word in row['words']:
allwords.append(word)
from collections import Counter
pd.Series(Counter(allwords)).sort_values(ascending=False)

这可行,但我想知道是否有更快的解决方案。注意:我没有使用 ' '.join() 因为我不希望将短语拆分为单个单词。

最佳答案

我们试试 .hstack .value_counts :

pd.value_counts(np.hstack(test['words']))

scare        3
foo 2
bar none 2
ten 1
bar 1
crow bird 1
race 1
dtype: int64

关于python - 获取包含字符串列表的 Pandas 列的词频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65844350/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com