gpt4 book ai didi

machine-learning - 使用类别列表学习 NER

转载 作者:行者123 更新时间:2023-11-30 09:52:04 24 4
gpt4 key购买 nike

在训练 CRF++ 的模板中,如何包含上市公司的自定义 dictionary.txt 文件、流行的欧洲食品的另一个文件(例如,或几乎任何类别)。

然后为每个类别提供样本训练数据,从而了解如何在该类别的上下文中使用这些特定的命名实体。
通过这种方式,我以及系统可以确保它正确理解文本中某些命名实体的结构,无论是推文还是普利策奖获奖新闻文章,而不是提供数百兆字节的数据。

这会很酷。模型将具有已知实体的明确字典(不需要扩展)以及关于如何在人类文本中构造这些已知实体的统计方法。

PS - 只是为了清楚起见,并不是渴望成为正则表达式专家。只有当你有很多字典、很多规则和很多无聊的时间时,这些才很酷。

最佳答案

我认为你所说的是地名词典列表(dictionary.txt)。

您必须在训练数据中包含单词的相应特征,然后在模板文件中指定它。

例如:您的列表包含实体:Hershey's训练数据中有一句话:我喜欢好时巧克力。

因此,当您以 CoNLL 格式(对于 CRF++)排列数据时,您可以添加一列(其值为 0 或 1 ,表示该单词存在于字典中),该列的所有单词的值为 0,除了好时的。您还必须将此列作为功能包含在模板文件中。

为了更好地了解模板文件和使用 CRF++ 进行 NER 训练,您可以观看以下视频并评论您的疑问:)

1) https://youtu.be/GJHeTvDkIaE

2) https://youtu.be/Ur5umC4BwN4

编辑:(查看OP的评论后)

具有额外功能的示例训练数据:https://pastebin.com/fBgu8c67我添加了 3 个功能。 IsCountry 特征值( 1 或 0 )可以从国家地名词典列表中获取。其他 2 个特征可以离线计算。请注意,文件中添加的 header 仅供引用,不应包含在训练数据文件中。

上述数据的示例模板文件:https://pastebin.com/LPvAGCVL

请注意,测试数据也应采用与训练数据相同的格式,具有相同的功能/相同的列数。

关于machine-learning - 使用类别列表学习 NER,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43560764/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com