gpt4 book ai didi

nlp - 从非结构化文本中提取人名

转载 作者:行者123 更新时间:2023-12-04 19:04:44 27 4
gpt4 key购买 nike

我有一堆账单和发票,所以文本中没有上下文(我的意思是它们没有讲故事)。
我想从这些账单中提取人名。
我尝试过 OpenNLP,但训练模型的质量不好,因为我没有上下文。
所以第一个问题是:我可以训练模型只包含没有上下文的人名吗?如果可能的话,你能给我一篇关于我如何构建新模型的好文章(我阅读的大部分文章都没有解释我应该为构建新模型所做的步骤)。

我有超过 100,000 个人名(名字、姓氏)的数据库名称,所以如果 NER 系统在我的情况下不起作用(因为没有上下文),那么搜索这些候选人的最佳方法是什么(我意味着用所有其他姓氏搜索每个名字?)

谢谢。

最佳答案

关于“上下文”,我猜您的意思是您没有完整的句子,即没有上一个/下一个标记,在这种情况下,您将面临非常不标准的 NER。我不知道针对此特定问题的可用软件或培训数据,如果您没有发现,则必须构建自己的语料库以进行培训和/或评估。

您的姓名数据库可能会有很大帮助,这实际上取决于数据库中实际存在的账单名称的比例。您可能还必须依赖名称的字符级形态,作为模式(参见 [1] 中的模式示例)。一旦您拥有一个具有特征(数据库中的存在、形态、账单的其他信息)和解决方案(带注释的账单的实际名称)的训练集,使用标准机器学习作为 SVM 将非常简单(如果您不熟悉这一点,只是问)。

其他一些建议:

  • 您很可能还使用其他账单信息:公司名称、职位、税务提及等。
  • 您也可以有选择地进行——如果所有账单都应该提到(确切地?)一个人的名字,您可以排除所有其他文本(例如金额、税名、职位等)或在专用模型中假设在所有文本中一张钞票,只能猜一个名字。

  • [1] 命名实体提取的排名算法:Boosting 和投票感知器(Michael Collins,2002)

    关于nlp - 从非结构化文本中提取人名,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27814959/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com