gpt4 book ai didi

python - 从文本生成关键字的简单方法是什么?

转载 作者:IT老高 更新时间:2023-10-28 21:07:44 25 4
gpt4 key购买 nike

我想我可以从文本中删除高频英文单词。通过关键字,我的意思是我想提取最能表征文本内容的词(标签)。它不一定是完美的,一个好的近似值就可以满足我的需求。

有人做过类似的事情吗?你知道有这样的 Perl 或 Python 库吗?

Lingua::EN::Tagger 正是我所要求的,但是我需要一个也可以处理法语文本的库。

最佳答案

“高频英语单词”的名称是stop words并且有很多可用的列表。我不知道有任何 python 或 perl 库,但是您可以将停用词列表编码为二叉树或散列(或者您可以使用 python 的frozenset),然后当您从输入文本中读取每个单词时,检查它是否是在您的“停止列表”中并将其过滤掉。

请注意,删除停用词后,您需要做一些 stemming规范化生成的文本(删除复数、-ings、-eds),然后删除所有重复的“关键字”。

关于python - 从文本生成关键字的简单方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/465795/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com