gpt4 book ai didi

machine-learning - 使用命名实体数据集

转载 作者:行者123 更新时间:2023-11-30 09:57:35 26 4
gpt4 key购买 nike

我正在研究一个分类任务,我们正在构建模型来检测文本范围(即注释)中存在的实体的类型。这些模型可以使用数据集构建,其中每个实例由三个独立的文本变量表示:

  • 前上下文:注释之前的文档文本。
  • 注释:我们要检测实体类型的文档范围。如果不存在实体,则所有实体类型列(isPerson、isOrganization、isTime)都标记为 0
  • 后上下文:注释后的文档文本。

数据集 1:文本范围内的实体类型分类。

preContext  | annotation       | postContext | isOrganization | isPerson | isTime 
.... | on July 12, 2011 | .... | 0 | 0 | 1
With over 8 | million invested | in Chrysler | 0 | 0 | 0

数据集 2:边界检测 - “实体起始点”

在第一个示例中,preContext 和文本之间的转换标志着组织类型实体的开始。在第二个示例中,preContext 和文本之间的过渡处不存在任何实体,因此所有因变量列都标记为零。

preContext          | text
| isStartOfOrganization | isStartOfPerson | isStartOfTime
Private equity firm | Westbridge Capital could exit part or all of its stake in Hyderabad-based technology firm.
| 1 | 0 | 0

我一直在使用基本的 NLP 技术,如 TF/IDF、N-gram、Tokenizers、Stemmers、POS Taggers、Stoplist 来解决上述问题。但我现在真正想做的是尝试一些除了我尝试过的新技术之外的新技术。这是我的问题,我找不到任何有效的技术。如果你能建议我那就太好了,也就是说,取得进一步显着 yield 的唯一方法就是开始跳出框框思考!您能否建议我一些解决上述问题的新技术?

最佳答案

命名实体识别是规范序列标记任务之一。通常完成此操作的方式(与您接近但有点不同)是为句子中的每个单词附加一个标签。类似于以下内容:

没有/没有超过/没有八/没有一百万/没有投资/没有/没有克莱斯勒/BEGIN-COMPANY

周二/NONE,/BEGIN-PERSON X/PERSON 先生,/NONE 的首席执行官/NONE 技术/BEGIN-COMPANY 产品/COMPANY Inc/COMPANY 说/NONE ...

我相信有一个单独的开始标签是很常见的(BEGIN-COMPANY 与 COMPANY),因为它有助于学习 NONE 和类别之间的转换。不过你可以两者都尝试一下。

您不想将其视为一堆独立决策(分类),因为您做出的决策是相互依赖的。相反,使用特定的序列标记模型。如果您可以使用工具包(许多可用),那么最通用且最容易掌握的是条件随机字段,因为您可以为每个单词定义任意特征函数,而不必担心分布假设。常见的特征包括单词 ID、之前的标签 ID、单词是否大写、是否出现在各种专有名词列表中等。然后您可以从标记数据中学习模型并将其应用到新文本中。

关于machine-learning - 使用命名实体数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16437115/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com