gpt4 book ai didi

python - 使用 NLTK ieer 或 conll2000 语料库训练 NER 语料库

转载 作者:太空宇宙 更新时间:2023-11-03 15:21:37 24 4
gpt4 key购买 nike

我一直在尝试为特定领域和新实体训练命名实体识别模型。似乎没有一个完整的适合此的管道,并且需要使用不同的包。

我想给NLTK一个机会。我的问题是,如何训练 NLTK NER 使用 ieer 语料库对新实体进行分类和匹配?

我当然会提供 IOB 格式的训练数据,例如:

We PRP B-NP
saw VBD O
the DT B-NP
yellow JJ I-NP
dog NN I-NP

我想我必须自己标记 token 。

当我有这种格式的文本文件时,下一步该怎么做?使用 ieer 语料库或更好的语料库 conll2000 训练数据的步骤是什么?

我知道那里有一些文档,但我不清楚在标记训练语料库后该怎么做。

我想要使用 NLTK,因为我想使用 relextract() 函数。

请大家多多指教。

谢谢

最佳答案

nltk 提供您需要的一切。阅读 nltk 书的第 6 章,关于 Learning to Classify Text 。它为您提供了一个有效的分类示例。然后学习 Chapter 7 中的第 2 节和第 3 节,它向您展示了如何使用 IOB 文本并编写分块分类器。尽管示例应用程序不是命名实体识别,但代码示例几乎不需要任何更改即可工作(当然,您需要自定义功能函数才能获得不错的性能。)

您还可以使用 nltk 的标记器(或其他标记器)将 POS 标记添加到您的语料库,或者您可以捕获机会尝试在没有词性标记的数据上训练分类器(仅是 IOB 命名实体)类别)。我的猜测是,词性标记将提高性能,如果在训练数据上使用与评估(以及最终生产使用)相同的词性标记器,实际上效果会更好。

关于python - 使用 NLTK ieer 或 conll2000 语料库训练 NER 语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43489724/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com