gpt4 book ai didi

machine-learning - Rasa NLU - 理解训练数据

转载 作者:行者123 更新时间:2023-11-30 08:31:00 25 4
gpt4 key购买 nike

我很难理解 rasa nlu 中的训练数据。假设我想要获得训练数据,其中有人告知某人他们可以购买的动物。为了清楚起见,我将使用 Markdown 格式:

假设用户正在回答一个问题:

“您想购买哪种动物?”

表达你想买东西的方式有很多种。请看下面的例子:

##intent:inform
- [cat](animal)
- buy [cat](animal)
- I would like to buy a [cat](animal)

我需要对我打算处理的每种动物重复此操作吗?像下面这样吗?

##intent:inform
- [cat](animal)
- [dog](animal)
- [parrot](animal)
- buy [cat](animal)
- buy [dog](animal)
- buy [parrot](animal)
- I would like to buy a [cat](animal)
- I would like to buy a [dog](animal)
- I would like to buy a [parrot](animal)

此外,我注意到在 rasa 的餐厅机器人中,它们有时会一遍又一遍地重复相同的示例,有时多达七次,如下所示:

##intent:inform
- [cat](animal)
- [cat](animal)
- [cat](animal)
- [cat](animal)
- [cat](animal)
- buy [cat](animal)
- I would like to buy a [cat](animal)

为什么有必要这样做?这对理解有什么影响?在同一位置多次出现同一个单词如何表明这是一个适当的响应,特别是如果您有类似下面的内容,其中同一实体的不同值重复了相同的次数?

##intent:inform
- [cat](animal)
- [cat](animal)
- [cat](animal)
- [cat](animal)
- [cat](animal)
- buy [cat](animal)
- I would like to buy a [cat](animal)
- [dog](animal)
- [dog](animal)
- [dog](animal)
- [dog](animal)
- [dog](animal)
- buy [dog](animal)
- I would like to buy a [dog](animal)

谢谢您,如有任何建议,我们将不胜感激。

最佳答案

There are only so many different ways of saying you want to buy something.

你可能会感到惊讶:

  • 我可以买狗吗?
  • 我想买一只狗。
  • 我真的很想要一只狗。
  • 如果我拥有一只狗,我会很高兴。
  • 我正在寻找一只宠物,也许是一只狗。
  • 购买狗
  • 领养狗
  • 养只狗
  • 带一只狗回家

我相信这个列表还会有更多的例子。话虽这么说,Rasa NLU 应该能够学习和适应少数示例。除某些异常(exception)情况外,例如,采用可能与购买没有很强的关系,但作为示例可能很重要。

Would I need to repeat this for every type of animal I intended to handle? Like below?

不,没有必要。每个动物值都是一个实体,Rasa 默认使用 CRF 进行实体识别,这就是您在这里讨论的内容。 CRF 更多的是关于句子的结构而不是单词的值。您可以在 docs 中查看 CRF 所查看的功能。和 code :

  # Available features are:
# ``low``, ``title``, ``suffix5``, ``suffix3``, ``suffix2``,
# ``suffix1``, ``pos``, ``pos2``, ``prefix5``, ``prefix2``,
# ``bias``, ``upper`` and ``digit``
features: [["low", "title"], ["bias", "suffix3"], ["upper", "pos", "pos2"]]

话虽这么说,为实体使用不同的值可能是获取额外训练数据的好方法。您可以使用类似 chatito 的工具从模式生成训练数据。但请尽可能小心重复模式 overfit模型无法概括到超出您训练的模式。

they sometimes repeat the same example over and over again

您在 Rasa 数据集中看到过这个吗?这里是默认的restaurant bot training data而且我没有看到任何重复。

一遍又一遍地重复一个句子将强化模型,即格式/单词很重要,这是 oversampling 的一种形式。 。如果您的训练数据很少或训练数据高度不平衡,这可能是一件好事。如果您想通过多种不同的方式购买宠物,这可能是一件坏事overfit我上面提到的模型。

关于machine-learning - Rasa NLU - 理解训练数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51959679/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com