gpt4 book ai didi

python - 命名实体识别 : How to tag the training set and chose the algorithm?

转载 作者:太空宇宙 更新时间:2023-11-04 01:21:21 24 4
gpt4 key购买 nike

对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和委托(delegate)人(雇用承包商的公司)的模型。

一个例句是:

Blossom Inc. hires the consultants of Big Think to develop an outsourcing strategy.

Blossom Inc 是委托(delegate)人,Big Think 是承包商。

我的第一个问题:在我的训练集中只标记委托(delegate)人和承包商是否足够,还是额外使用词性标记更好?

换句话说,要么

Blossom/PRINCIPAL Inc./PRINCIPAL hires/NN the/NN consultants/NN of/NN Big/CONTRACTOR Think/CONTRACTOR to/NN develop/NN an/NN outsourcing/NN strategy/NN ./.

Blossom/PRINCIPAL Inc./PRINCIPAL hires/VBZ the/DT consultants/NNS of/IN Big/CONTRACTOR Think/CONTRACTOR to/TO develop/VB an/DT outsourcing/NN strategy/NN ./.

第二个问题:一旦我有了我的训练集,nltk-package 的哪些算法最有前途? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier,朴素贝叶斯,...?还是我完全走错了路?

我是 NLP 的新手,我只是想在投入大量时间标记我的训练集之前寻求建议。我的文字是德语,这可能会增加一些困难...感谢您的任何建议!

最佳答案

我建议您不要合并命名实体和 POS 信息。大多数工作表明 POS(或其他一些形态和/或大写特征)对于检测命名实体很有值(value)。由于您可以非常安全地使用自动 POS 标记器(除非您处理嘈杂的文本),您最终可能会得到类似的东西:

Blossom/NNP/PRINCIPAL Inc./NNP/PRINCIPAL hires/VBZ/O the/DT/O consultants/NNS/O of/IN/O Big/NNP/CONTRACTOR Think/NNP/CONTRACTOR to/TO/O develop/VB/O an/DT/O outsourcing/NN/O strategy/NN/O ./.

POS 级别会自动标记,而您可以手动注释 PRINCIPAL 和 CONTRACTOR。另请注意,大多数人使用 BIO format用于标记命名实体。

请记住,识别组织通常非常困难 - 至少比人和地点更难。除非您有预定义的组织列表,否则需要大量词典。凭直觉,我猜你可以将任务划分为:

  1. 识别和过滤组织 (ORG),例如使用 NER 标记器
  2. 注入(inject)额外的处理(模式/语法/语义)
  3. 实现第二个模型,将相关 ORG 转换为 PRINCIPAL 或 CONTRACTOR

关于python - 命名实体识别 : How to tag the training set and chose the algorithm?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20971073/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com