gpt4 book ai didi

java - 有一个不需要整个文本作为训练数据的实体识别器分类器算法吗?

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:50:28 25 4
gpt4 key购买 nike

我想识别一些文本上的实体,我找到了很多算法(朴素贝叶斯、隐马尔可夫模型、条件随机场等),但似乎几乎都需要大量的训练数据来对实体进行分类.

我想知道是否有某种算法可以在训练数据中没有文本的情况下进行识别,但也许只有代表我想识别的数据的单词,或者一些字符串模式,或者其他方式。

我唯一想避免的是将大量文本作为训练数据的必要性。

最佳答案

如果您有想要查找的命名实体种类的简短列表(通常称为“地名词典”)并且不想手动注释训练数据,则您应该研究引导命名实体识别的工作。您可以使用 Bootstrap 来扩展地名词典或开发命名实体识别器。我在快速搜索中找到的一些示例方法如下:

还有大量关于命名实体识别主动学习的研究,如果您决定进行一些手动注释,这可以显着减少需要注释的训练数据量。

关于java - 有一个不需要整个文本作为训练数据的实体识别器分类器算法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7005973/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com