gpt4 book ai didi

python nltk 从句子中提取关键字

转载 作者:太空狗 更新时间:2023-10-30 00:57:07 24 4
gpt4 key购买 nike

"First thing we do, let's kill all the lawyers." - William Shakespeare

鉴于上面的引用,我想抽出“kill”“lawyers”作为两个突出的关键词来描述句子的整体含义。我提取了以下名词/动词 POS 标签:

[["First", "NNP"], ["thing", "NN"], ["do", "VBP"], ["lets", "NNS"], ["kill", "VB"], ["lawyers", "NNS"]]

我试图解决的更普遍的问题是将一个句子提炼成“最重要”* 的单词/标签,以总结一个句子的整体“含义”*。

*注意恐吓引号。我承认这是一个非常困难的问题,目前很可能没有完美的解决方案。尽管如此,我还是有兴趣看到解决特定问题(提取“kill”“lawyers”)和一般问题(总结句子的整体含义)的尝试关键词/标签)

最佳答案

我认为这个问题没有任何完美的答案,因为没有任何人人都会同意的黄金输入/输出映射集。你认为这句话最重要的词是('kill','lawyers'),其他人可能会争辩说正确答案应该是('first','kill','lawyers')。如果你能够非常精确和完全明确地准确描述你希望你的系统做什么,你的问题就解决了一半以上。

在那之前,我可以建议一些额外的启发式方法来帮助您获得想要的东西。
build 一个 idf使用您的数据创建字典,即构建从每个单词到与该单词的稀有程度相关的数字的映射。做更大的奖励积分n-grams以及。

通过结合输入句子中每个单词的 idf 值及其词性标记,您可以回答以下形式的问题:“这句话中最罕见的动词是什么?”、“这句话中最罕见的名词是什么”、等等。在任何合理的语料库中,'kill' 应该比 'do' 少见,而 'lawyers' 比 'thing' 少见,所以也许试图在句子中找到最稀有的名词和最稀有的动词,然后只返回这两个就可以了大多数预期用例的技巧。如果没有,您总是可以让您的算法更复杂一点,看看它是否能更好地完成工作。

扩展它的方法包括尝试使用 n-gram idf 来识别更大的短语,构建一个完整的 parse-tree句子(可能使用 stanford parser )并识别这些树中的一些模式,以帮助您找出树的哪些部分做重要的事情往往是基于等等。

关于python nltk 从句子中提取关键字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11406657/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com