gpt4 book ai didi

python - Python中的关键字提取

转载 作者:太空宇宙 更新时间:2023-11-04 11:04:29 26 4
gpt4 key购买 nike

我正在用 Django 构建一个网站,需要从短消息(类似 Twitter 的消息)中提取关键词。

我看过像 topia.textextract 和 nltk 这样的包——但对于我需要做的事情来说,这两个包似乎都过大了。我需要做的就是过滤诸如“and”、“or”、“not”之类的词,同时保留不是连词或其他词性的名词和动词。是否有任何“更简单”的软件包可以做到这一点?

编辑:这需要在生产网站上近乎实时地完成,因此根据他们的响应时间和请求限制,使用关键字提取服务似乎是不可能的。

最佳答案

你可以做一个集合sw你想消除的“停用词”(也许从NLTK的停用词语料库copy一劳永逸,取决于您对需要支持的各种自然语言有多熟悉),然后非常简单地应用它。

例如,如果您有一个构成句子的单词列表 sent(为简单起见,去掉标点符号和小写字母),[如果单词不在 sw 中,则单词发送] 是制作一个非停用词列表所需要的全部——再简单不过了,对吧?

首先要获取sent列表,使用标准库中的re模块,re.findall(r'\w+', sentstring ) 如果 sentstring 是包含您正在处理的句子的字符串——它不是小写的,但您可以将我上面建议的列表理解更改为 [如果 word.lower() 不在 sw] 中逐字发送以补偿这一点,并且(顺便说一句)保持单词的原始大小写,这可能很有用。

关于python - Python中的关键字提取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2531717/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com