gpt4 book ai didi

google-cloud-platform - 如何使用 Google NLP 在单个注释中提取多个标签文本项

转载 作者:行者123 更新时间:2023-12-03 20:54:01 24 4
gpt4 key购买 nike

我已经使用 Google NLP 实体提取创建了数据集,并上传了将存储在 Google 存储桶中的 NLP 格式的输入数据(训练、测试、验证 jsonl 文件)。

示例注释:

   {
"annotations": [{
"text_extraction": {
"text_segment": {
"end_offset": 10,
"start_offset": 0
}
},
"display_name": "Name"
}],
"text_snippet": {
"content": "JJ's Pizza\n "
}
} {
"annotations": [{
"text_extraction": {
"text_segment": {
"end_offset": 9,
"start_offset": 0
}
},
"display_name": "City"
}],
"text_snippet": {
"content": "San Francisco\n "
}
}

这是将标签预测为“名称”、“城市”和“州”的输入文本

Best J J's Pizza in San Francisco, CA



结果在以下屏幕截图中,

predict-data

我预计预测结果如下,

Name : JJ's Pizza City : San Francisco State: CA

最佳答案

根据您提供的示例注释,您正在设置整个 text_snippet成为 name (或您想要提取的任何字段)。
这可能会使模型混淆所有文本都是该实体的理解。
最好有类似于 the documentation 中的训练数据。 .在那里,有一大块文本,然后我们注释我们想要从那里提取的实体。

例如,假设我从这些文本片段中告诉模型草书部分是一个名为 a 的实体。 , 而 粗体 part 是一个名为 b 的实体:

  • 锦江披萨
  • LL墨西哥卷饼
  • 烤肉MM
  • 书市NN
  • 旧金山
  • 纽约
  • 华盛顿
  • 洛杉矶

  • 然后,当模型读取 Best JJ Pizza 时,它认为所有都是一个单一的实体(我们用这个假设训练模型),它只会选择最匹配的一个(在这种情况下,它可能会说它是一个 a 实体)。
    但是,如果我提供以下文本示例(也像草书一样注释是实体 a 粗体 是实体 b ):
  • 最好的披萨店旧金山 是JJ披萨。
  • 如果您想享受奢华的体验,请不要忘记在您身边时参观 LL Burritos 纽约 .
  • 我曾经访问过Kebab MM,但在有更好的选择华盛顿 .
  • 您可以在 中找到 Shushi NN洛杉矶

  • 您可以看到您如何训练模型以在一段文本中查找实体,并且它将尝试根据上下文提取它们。

    训练模型的重要部分是提供尽可能类似于现实生活数据的训练数据。
    在您提供的示例中,如果您的现实场景中的数据将采用 <ADJECTIVE> <NAME> <CITY> 格式,那么您的训练数据应该具有相同的格式:
    {
    "annotations": [{
    "text_extraction": {
    "text_segment": {
    "end_offset": 16,
    "start_offset": 6
    }
    },
    "display_name": "Name"
    },
    {
    "text_extraction": {
    "text_segment": {
    "end_offset": 30,
    "start_offset": 21
    }
    },
    "display_name": "City"
    }],
    "text_snippet": {
    "content": "Worst JJ's Pizza in San Francisco\n "
    }
    }

    请注意,自然语言 ML 模型的重点是处理自然语言。如果您的输入看起来像那样相似/简单/简短,那么走 ML 路线可能不值得。一个简单的正则表达式就足够了。如果没有自然语言部分,就很难正确训练模型。更多详情请见 the beginners guide .

    关于google-cloud-platform - 如何使用 Google NLP 在单个注释中提取多个标签文本项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61597647/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com