gpt4 book ai didi

machine-learning - 使用 spaCy 进行额外的命名实体识别需要多少训练数据量?

转载 作者:行者123 更新时间:2023-11-30 09:05:54 25 4
gpt4 key购买 nike

我正在使用 spaCy 模块来查找输入文本的名称实体。我正在训练模型来预测医学术语。我目前可以访问 200 万份医疗笔记,我编写了一个程序来对这些笔记进行注释。

我将医疗笔记与约 9 万个术语的预定义列表进行交叉引用,该列表用于注释任务。按照目前的批注速度,批注10000条笔记大约需要一个半小时。按照注释目前的工作方式,我最终得到大约 90% 的注释没有注释(我目前正在努力获得更好的交叉引用术语列表),因此我采用了约 1000 个带注释的注释并训练模型关于这些。

我已经检查过,模型对它所看到的已知注释术语做出了某种 react (例如,术语心动过速之前已经从注释中看到过,并且有时会在术语出现在文中)。

这个背景可能与我的特定问题不太相关,但我想我应该为我当前的立场提供一点背景知识。

我想知道是否有人在 spaCy 中成功训练了新实体,可以让我深入了解他们的个人经验,即获得至少某种程度上可靠的实体识别所必需的训练量。

谢谢!

最佳答案

我从头开始训练了希腊语的命名实体识别器,因为没有可用的数据,所以我会尝试向您总结我在案例中注意到的事情。

我用 Prodigy 训练了 NER注释工具。根据我的个人经验,您问题的答案取决于以下因素:

  • 您希望识别器能够预测的标签数量。这是有道理的,当标签数量(可能的输出)增加时,您的神经网络会更难以区分它们,因此您需要的数据量也会增加。
  • 标签有多么不同。例如,GPE 和 LOC 标签非常接近,并且经常在相同的上下文中使用,因此神经网络一开始就很容易混淆它们。建议提供更多与彼此接近的标签相关的数据。
  • 培训方式。这里几乎有两种可能性:
    • 完整注释的句子。这意味着您告诉神经网络您的注释没有丢失标签。
    • 部分注释的句子。这意味着您告诉神经网络您的注释是正确的,但可能缺少一些标签。这使得网络更难依赖您的数据,因此需要提供更多数据。
  • 超参数。为了充分利用数据集,微调网络非常重要。
  • 数据集的质量。这意味着,如果数据集能够代表您要要求网络预测的事物,则需要的数据就会更少。但是,如果您正在构建一个更通用的神经网络(可以在不同的上下文中正确回答),则需要更多数据。

对于希腊模型,我尝试在 6 个足够明显的标签中进行预测,我提供了大约 2000 个完全注释的句子,并且花费了大量时间进行微调。

结果:70% F-measure,这对于任务的复杂性来说相当不错。

希望对你有帮助!

关于machine-learning - 使用 spaCy 进行额外的命名实体识别需要多少训练数据量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52120487/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com