gpt4 book ai didi

regex - 从文档中提取信息,训练集不多

转载 作者:行者123 更新时间:2023-11-30 09:37:42 24 4
gpt4 key购买 nike

  • 我想做的事情:从文本文档中提取基本传记信息。 (具体为关系抽取)
  • 说明:我有 n 个文本文档,其中包含 n 个不同人的传记。我想提取与他们的姓名、年龄、资格、从属关系和兴趣相对应的信息。
  • 我能做什么:在某些情况下,我使用斯坦福 NER 来提取姓名、年龄和组织。然而,有很多误报和漏报——特别是对于“组织”标签。
  • 为什么困难:由于它是传记文档,因此包含与相关人员相关的文本。我无法使用其他文档来训练我的分类器,因为对于另一个人来说事情会完全不同。是的,我当然可以写一些规则。然而,这极大地限制了我的领域。例如,我编写了提取资格的规则。简单的规则是:如果句子中存在任何学位(在我预先指定的字典中),我可以从该句子中提取实体并尝试找到关系。
  • 我的问题:有什么办法可以让这个任务自动进行吗?由于我们每次只分析一份文档,因此请不要建议我使用基于引导的方法。我尝试通过从每个文档中收集特定句子来学习模式,然后应用基于引导的算法(如 Snowball),但惨败。我知道解析可能对我有帮助,我正在尝试从特定句子的依存解析中学习一些模式……但是我不太确定如何继续。我想过应用远程监督学习,但这也需要很大的数据集。
  • 个人看法(到目前为止):此类问题可以通过基于规则的方法和基于解析的方法增强来解决。然而,我还无法结合概率或统计模型来将其推广到不同类型的传记。

PS:我想更改我的“个人看法”的后一句。因此,寻求帮助。

示例:
包含以下文本的文档:
Tim 于 2010 年获得斯坦福大学博士学位,2004 年获得麻省理工学院荣誉学士学位。目前就职于 ABC 公司。

应以以下形式提取事实:[Entity1, Relation, Entity2]
例如:[Tim,斯坦福大学博士生],
[他(回复蒂姆),麻省理工学院荣誉学士] 和
[他(Resolved t Tim),隶属关系-works,ABC]

最佳答案

举个例子会有所帮助。例如,如果传记是结构化的,那么您可以在 bash 脚本中使用 AWK 或 GREP。如果您还没有考虑过该选项,请发布一个示例供我们引用。

另一种选择是使用 Amazon Turk 或其他人工微任务工具。只需花费相对较少的钱,您就可以让人为您提取信息。 CrowdFlower 等一些工具提供了考虑到工作人员过去表现的结果统计分析。您可以使用冗余和投票来进一步优化您的结果。我过去曾使用过 CrowdFlower,并取得了非常好的结果。他们已经改变了业务模式,专注于大客户,因此这可能不再是一个选择。我将从土耳其人开始。

关于regex - 从文档中提取信息,训练集不多,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32193959/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com