gpt4 book ai didi

python - 去除低频词

转载 作者:行者123 更新时间:2023-11-28 20:14:21 28 4
gpt4 key购买 nike

我有一个包含 2 列的数据框,其中 1 列包含一串单词,例如:

       Col1                 Col2
0 1 how to remove this word
1 5 how to remove the word

我想删除在整个数据帧中出现一次的所有单词(阈值 =1),我会得到例如:(如果我可以指定阈值则更好)

       Col1                 Col2
1 5 how to remove word

有什么建议吗?谢谢!

最佳答案

让我们在这里尝试使用计数器:

  1. 将句子拆分成单词
  2. 计算全局词频
  3. 根据计算出的频率过滤单词
  4. 加入并重新分配

from collections import Counter
from itertools import chain

# split words into lists
v = df['Col2'].str.split().tolist() # [s.split() for s in df['Col2'].tolist()]
# compute global word frequency
c = Counter(chain.from_iterable(v))
# filter, join, and re-assign
df['Col2'] = [' '.join([j for j in i if c[j] > 1]) for i in v]

df
Col1 Col2
0 1 how to remove word
1 5 how to remove word

关于python - 去除低频词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50297777/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com