gpt4 book ai didi

deep-learning - 非连续标记的 NER 标记模式

转载 作者:行者123 更新时间:2023-12-04 15:02:58 25 4
gpt4 key购买 nike

NER 最常见的标记程序是 IOB。但似乎这种标记仅限于来自同一实体的 token 是连续的情况。

例如,

Jane Smith is walking in the park 将被标记为:B-PER I-PER O O O O O

这里我的 PER 实体是 [Jane, Smith]

的串联

如果我们调整示例:

Jane 和 James Smith 在公园散步

B-PER O B-PER I-PER O O O O O

现在的问题是,我们将获得的实体是 [Jane][James, Smith],因为 IOB 标记不允许将 Jane 链接到 Smith。

是否有任何标记模式允许将 [Jane, Smith][James, Smith] 标记为实体?

最佳答案

首先,关于在没有新数据格式的情况下执行此操作:

关于使用 TextAE 执行此操作的论文和 repo为此:

paper

repo

但是,查看他们的示例和您的示例,您似乎可以改进 what they did通过使用依赖解析。如果你看the dependency parse “Jane and James Smith are walking in the park”,你可以看到 spaCy 知道 Jane 和 Smith 是连体的。因此,在运行实体提取后,您可以执行依赖项解析步骤,然后基于该步骤编辑您的实体。

现在,回答真正的问题。我见过以下列方式工作的多维标签(假设每个句子最多有 10 个实体:

empty = [0,0,0,0,0,0,0,0,0]

tokens = ["Jane", "and", "James", "Smith", "are", "walking", "in", "the", "park"]
labels = [
[1, 0, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 1, 1, 0, 0, 0, 0, 0],
]
labels = labels + [empty] * (10-len(labels))

如果您有不止一种实体类型,您可以使用这些实体类型而不仅仅是 1

无论如何,这种格式在 BERT 上效果更好,因为当您无论如何都必须将 token 拆分为 BPE 时,BIO 格式会很麻烦。

关于deep-learning - 非连续标记的 NER 标记模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66655836/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com