gpt4 book ai didi

python - NLTK 提取分块分析树的术语

转载 作者:太空宇宙 更新时间:2023-11-03 11:08:41 24 4
gpt4 key购买 nike

John Edward Grey started running now that he knows he is fat

She was listening to smack that by that awful singer

我想从一个句子中提取有趣的术语。我目前使用 POS 标记来识别每个实体的语法类型。然后我将每个标记更新为一个计数器(名词、动词和形容词具有不同的权重)。

我现在想为此使用分词器。我认为解析树的叶节点包含所有有趣的单词和短语。如何从分块器输出中提取术语?

最佳答案

在语言学中,“有趣的词”被称为公开课词。您所指的任务并不是真正的分块/解析任务。您正在寻找某种标记器/注释器/标签器来标记每个单词以查看它是否“有趣”。

序列标记

如果您将任务作为序列标记任务来处理,那么句子 John Edward Gray started running now he know he is fat 将被这样标记:

[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]
  • 所以任何标记有 B 的东西都意味着你的“有趣” block 的开始和

  • O 标记的后续单词将是“有趣” block 或

  • 的结尾
  • 它也可以以后续的 B 结束,以标记前一个“有趣” block 的结尾和新“有趣” block 的开始。

    <

什么有趣或不有趣?

实际上什么是有趣的或不有趣的取决于你的任务的最终目标是什么,对我来说,我会说 started running 是一个“有趣的” block ,因为它 started 修改了不定式的含义或 running 给它一个 begin action 模式。

Closed class vs Open class 单词

如果您知道什么是不感兴趣的词,那么我建议您构建一个字典,然后运行一个序列标记脚本来检测那些不在近类词字典中的词。

机器学习方法

另一种方法是执行机器学习分类任务,在这种情况下,您已经预先注释了样本数据,说明什么是有趣的,什么不是。然后识别一些分类特征并运行分类以使用 BIO 标签自动标记数据。

关于python - NLTK 提取分块分析树的术语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12295251/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com