gpt4 book ai didi

nltk - 使用 NLTK 的命名实体识别。提取关键词的相关性

转载 作者:行者123 更新时间:2023-12-05 00:04:31 29 4
gpt4 key购买 nike

我正在检查 NLTK 的命名实体识别功能。是否可以找出提取出的哪个关键字与原文最相关?另外,是否可以知道提取的关键字的类型(人/组织)?

最佳答案

如果你有一个训练有素的标注器,你可以先标注你的文本,然后使用 NLTK 自带的 NE 分类器。

标记文本应显示为列表

sentence = 'The U.N.'
tagged_sentence = [('The','DT'), ('U.N.', 'NNP')]

然后,ne 分类器将被称为这样
nltk.ne_chunk(tagged_sentence)

它返回一棵树。分类的词将在主结构内显示为树节点。
结果将包括它是个人、组织还是 GPE。

要找出最相关的术语,您必须定义“相关性”的度量。通常 tf/idf使用,但如果您只考虑一份文件,频率可能就足够了。

使用 NLTK 可以轻松计算文档中每个单词的频率。首先你必须加载你的语料库,一旦你加载了它并有一个 Text 对象,只需调用:
relevant_terms_sorted_by_freq = nltk.probability.FreqDist(corpus).keys()

最后,您可以过滤掉 related_terms_sorted_by_freq 中不属于 NE 单词列表的所有单词。

NLTK offers an online version of a complete book我觉得有趣的开始

关于nltk - 使用 NLTK 的命名实体识别。提取关键词的相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5685138/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com