gpt4 book ai didi

python - 用印度名字训练 Spacy NER

转载 作者:行者123 更新时间:2023-12-02 06:13:48 24 4
gpt4 key购买 nike

我正在尝试自定义 Spacy 的 NER 来识别印度人的名字。
遵循本指南 https://spacy.io/usage/training,这是我正在使用的数据集 https://gist.githubusercontent.com/mbejda/9b93c7545c9dd93060bd/raw/b582593330765df3ccaae6f641f8cddc16f1e879/Indian-Female-Names.csv

根据代码,我应该提供以下格式的训练数据:

TRAIN_DATA = [
('Shivani', {
'entities': [(0, 6, 'PERSON')]
}),
('Isha ', {
'entities': [(0,3 , 'PERSON')]
})
]

我如何向 Spacy 提供大约 12000 个名称的训练数据,因为手动指定每个实体将是一件苦差事?是否有其他工具可用于标记所有名称?

最佳答案

您错过了为自定义名称训练 NLP 库的重点。训练数据必须是一个训练条目列表,每个条目都有一个句子文本,其中标识了名称的位置。请再次查看训练数据示例,以了解您需要如何提供完整的句子而不仅仅是名称。

Spacy 并不意味着成为公报匹配工具。您最好生成 100 个使用其中一些名称的句子,然后在这些带注释的句子上训练 Spacy。您可以根据需要添加更多完整的句子示例以提高准确性。 Spacy 用于名称的原生 NER 非常强大,不需要 12000 个示例。

下面@ak_35 的回答提供了如何提供带有标记名称位置的训练句子的示例。

关于python - 用印度名字训练 Spacy NER,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49483971/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com