gpt4 book ai didi

python - 机器学习实体候选评分(非识别)

转载 作者:行者123 更新时间:2023-12-03 16:49:44 25 4
gpt4 key购买 nike

我试图了解 Google Smart Linkify 背后的机器学习部分.文章陈述了以下关于他们的 generate candidate entities模型。

A given input text is first split into words (based on space separation), then all possible word subsequences of certain maximum length (15 words in our case) are generated, and for each candidate the scoring neural net assigns a value (between 0 and 1) based on whether it represents a valid entity:



enter image description here

Next, the generated entities that overlap are removed, favoring the ones with the higher score over the conflicting ones with a lower score.



如果我理解正确,模型会尝试句子中的每个单词以及最多 15 个单词的组合?

你如何训练这样的模型?我认为这是监督学习,但不明白如何标记这些数据。它是否类似于实体由字符位置指定的 NER?而数据中只有2个实体 entitynon-entity .

对于模型的输出,即所谓的“候选分数”,神经网络如何返回单个数值? (分数)。或者输出层只是一个节点?

更详细的解释:
  • Possible word subsequences of certain maximum length意味着它会考虑每个单词之前的 7 个单词和单词之后的 7 个单词?
  • 当它是二元分类时,神经网络如何生成分数entitynon-entity ?或者它们是指实体的概率分数?
  • 如何训练二进制 NER?与任何其他 NER 一样,除了将所有实体替换为“实体”类型,然后为 non-entity? 生成负样本外
  • 当这个模型处理文本中的每个单词以及该单词前后的 7 个单词时,它如何能像他们声称的那样快速?

  • 是我要找的,去了解。

    最佳答案

    某个最大长度的可能词子序列意味着它考虑每个词前 7 个词和词后 7 个词?

    我从文档中了解到,您的描述不太正确。由于每个可能的序列长度最多为 15 个词,因此这将包括一个前后有 7 个词的词,以及前后有 5 个词和 3 个词的词等(即 len 之间的每个可能的 N-gram (1) 和 len(15) 导出初始概率,比较重叠字符串,丢弃任何具有较低概率的重叠,以便最终候选不重叠。

    当神经网络是二元分类实体和非实体时,如何生成分数?或者它们是指实体的概率分数?

    根据 the Google AI Blog ,“对于每个候选人,评分神经网络会根据它是否代表一个有效实体分配一个值(0 到 1 之间)。”所以这是一个概率。

    如何训练二进制 NER?像任何其他 NER 一样,除了将所有实体替换为“实体”类型,然后为非实体生成负样本?

    是的,但是,因为这是一个感知器模型,将训练许多二元分类器,每个分类器都将作为模型中的神经元。需要注意的是,分类器只对实体/非实体进行分类,而不是它是什么类型的实体。该帖子还讨论了通过获取正样本(由字符串中的开始标记和结束标记标记)并有意在该实体之前或之后包含标记来自动生成负样本。这种技术将大大增加训练数据的大小。

    当这个模型处理文本中的每个单词以及该单词前后的 7 个单词时,它如何能像他们声称的那样快速?

    采用相对较小的字符串(len 15)并将其拟合到模型的计算成本很小。将较长的字符串分成这个长度的子字符串的计算成本也非常小。即使文本有 5000 个字长(对于此类查询来说,这将是巨大的),也只有大约 600,000 个 n-gram 需要评估,而且其中大部分的实体分数都非常低。据我了解,这些方法最重要的计算成本是训练模型。这是使用帖子中讨论的“散列字符图嵌入”技术的地方。

    关于python - 机器学习实体候选评分(非识别),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60422206/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com