gpt4 book ai didi

python - 在 pandas 列中展开词袋(python)

转载 作者:行者123 更新时间:2023-12-01 01:45:31 26 4
gpt4 key购买 nike

在 pandas 中,我试图从 col2 中出现的单词中展开一袋单词。我的主要目标是找到每个不同类别中的所有独特单词及其频率。如果一个单词在一个类别中出现两次,则计为 1(例如“msk”和“people”)。

例如 -我有一个 pandas 专栏,如下所示:

col1        col2
Software [msk , people , inc. ]
Software [logical , corp , ltd ]
Software [imt , datalink , services. ]
Hardware [peoples , avenue , management ]
Hardware [msk , techn ]
Transport [tata , mgm , workspace , ltd ]
Services [msk , people , inc. ]
Services [happy , people , party , new ]

我的输出应该是这样的

words       category-freq .                          
msk 3
people 2
inc. 2
logical 1
corp 1
ltd 2

等等。 (这只是我给出的一个例子,最后省略了一些行)

第 2 列中的词袋采用列表的形式。

最佳答案

更新:

df.set_index('col1')['col2'].apply(pd.Series).stack().groupby(level=0).value_counts()

输出:

col1                 
Hardware avenue 1
management 1
msk 1
peoples 1
techn 1
Services people 2
happy 1
inc. 1
msk 1
new 1
party 1
Software corp 1
datalink 1
imt 1
inc. 1
logical 1
ltd 1
msk 1
people 1
services. 1
Transport ltd 1
mgm 1
tata 1
workspace 1
dtype: int64

用途:

df.col2.apply(pd.Series).stack().value_counts()

输出:

people        3
msk 3
ltd 2
inc. 2
techn 1
peoples 1
new 1
management 1
imt 1
datalink 1
mgm 1
tata 1
party 1
happy 1
services. 1
corp 1
avenue 1
logical 1
workspace 1
dtype: int64

关于python - 在 pandas 列中展开词袋(python),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51389377/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com