regex - 人工智能 : What kind of process would sites like Wit use to train Natural language-6ren

regex - 人工智能 : What kind of process would sites like Wit use to train Natural language

转载作者：行者123 更新时间：2023-12-04 17:35:24

25

4

关闭。这个问题需要更多focused .它目前不接受答案。

想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post .

7年前关闭。

Improve this question

我正在从事一个项目，我想在其中实现自然语言理解。但是，我将从小的开始，并希望针对特定查询对其进行训练。

例如，一开始我可能会告诉它:

歌曲。

然后，如果它看到像“Kanye Wests 歌曲”这样的句子，它可以与之匹配。

但是然后我想给它一些额外的句子，这些句子可能意味着相同的事情，以便它最终学会能够将未知句子预测为我已经训练过的集合。

所以我可以加上一句话:“歌曲由

当然，这将是一个可以再次匹配的名称数据库。

我遇到了一个简洁的网站 Wit.ai，它的功能与我所说的类似。然而，他们将他们的匹配解析为一个意图，我想将它与一个简化的查询或更好的数据库匹配(如 facebook 图形搜索)。

我知道上下文无关语法对此很有效(还有其他吗？)。但是有什么好的方法可以训练我说的几个具有相似含义的CFG，然后当它看到未知的句子时可以尝试和预测。

任何想法都会很棒。

基本上，我希望能够采用自然语言句子并将其转换为某种形式，以便更好地理解我的系统并以一种很好的方式呈现给用户。不确定是否有更好的堆栈交换!

最佳答案

首先，我认为 SO 非常适合这个问题(我检查了区域 51，NLP 没有堆栈交换)。

假设您已经熟悉 PCFG 语法的常规训练，我将进入一些可能帮助您实现目标的细节:

在语料库上训练的任何语法都将依赖于该训练语料库中的单词。在未知单词上的糟糕表现不仅在 PCFG 训练中是一个众所周知的问题，而且在几乎所有概率学习框架中都是一个众所周知的问题。但是，我们可以做的是将问题视为释义问题。毕竟，您想将具有相同含义的句子组合在一起，对吗？

在最近的研究中，检测具有相同(或相似)含义的句子或短语采用了一种称为 的技术。分布相似度 .它旨在改进对未见共现的概率估计。基本概念是

words or phrases that share the same distribution—the same set of words in the same context in a corpus—tend to have similar meanings.

您可以仅使用内在特征(例如 PCFG 中的产生式规则)或使用额外的语义知识(例如像 FreeBase 这样的本体)来支持这些特征。使用额外的语义知识可以生成具有相似含义的更复杂的句子/短语，但此类方法通常仅适用于特定领域。因此，如果您希望您的系统仅适用于音乐，这是一个好主意。

重现实际的分布相似性算法会使这个答案变得非常长，所以这里有一篇优秀文章的链接:

Generating Phrasal and Sentential Paraphrases: A Survey of Data-Driven Methods由 Madnani 和 Dorr。

对于您的工作，您只需要完成第 3.2 节:使用单一单语语料库进行释义。我相信本文中标记为“算法 1”的算法会对您有所帮助。但是，我不知道有任何公开可用的工具/代码可以做到这一点。

关于regex - 人工智能 : What kind of process would sites like Wit use to train Natural language，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21418946/

25

4

0

文章推荐： twitter-bootstrap - Bower:使用 bower 安装旧版 Bootstrap (2.3.2)

文章推荐： r - R 中漂亮的树状图？

文章推荐： r - 通过键合并数据框中的行

文章推荐：来自单选按钮的 AngularJS ng-model 数据

python - 什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 将数据存储在 tf.train.Feature 中？
TensorFlow 提供了 3 种不同的数据存储格式 tf.train.Feature .它们是: tf.train.BytesList tf.train.FloatList tf.train.In
trains - 使用 Trains 跟踪单独的训练/测试过程
在我的设置中，我运行了一个脚本火车一个模型并开始生成检查点。另一个脚本监视新的检查点和评估他们。脚本并行运行，因此评估只是训练之后的一步。支持这种情况的正确 Tracks 配置是什么？最佳答
trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用？
什么是合理的设置？我可以在同一次执行中多次调用 Task.init() 吗？最佳答案免责声明:我是 allegro.ai Trains 团队的一员一种解决方案是从 trains.automati
trains - ClearML(以前称为 Trains)可以在本地服务器上工作吗？
我想开始我的方式 ClearML (以前称为火车)。我在documentation上看到的我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。我真的很想绕过这个限制并在我的
machine-learning - WEKA的多层感知器: training then training again
我正在尝试使用 weka 的 MultilayerPerceptron 执行以下操作: 使用一小部分训练实例来训练一部分历元输入，在剩余的周期中使用整组实例进行训练。但是，当我在代码中执行以下操作
c++ - 对象检测 : Training Requried or No Training Required?
这个问题与对象检测有关，基本上是检测任何“已知”对象。例如，假设我有以下对象。表格瓶子。相机汽车我将从所有这些单独的对象中拍摄 4 张照片。左边一个，右边一个，上下两个。我本来以为用这4张照
"RuntimeError: You must train on the training inputs! " When I'm trying to use mini batch in training Guassian Process Regression Model(“RuntimeError：你必须在训练输入上训练！which is the most important part of the Process Regression Model.“)
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码，并且运行良好：。但我注意到，每个纪元都输入了相同的数据，我认为这可能会导致过度拟合，所以我想使用Mini Bat
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
(一)、tf.train.Saver() (1). tf.train.Saver() 是用来保存tensorflow训练模型的，默认保存全部参数 (2). 用来加载参数，注：只加载存储在data
python - Pytorch model.train() 和教程中编写的单独的 train() 函数
我是 PyTorch 的新手，我想知道您是否可以向我解释 PyTorch 中的默认 model.train() 与此处的 train() 函数之间的一些关键区别。另一个 train() 函数位于关于
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以在maskrcnn的预训练模型的基础上训练吗？如果预训练模型的类别与我自己的数据集不同，预训练模型仍然有效吗？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以按照Maskrcnn预先训练的模式进行训练吗？如果预先训练的模型的类别与我自己的数据集的类别不同，那么预先训练的模型是否仍然有效？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
tensorflow - tf.train.MonitoredTrainingSession 和 tf.train.Supervisor 有什么区别
我想知道这两个 tensorflow 对象在用于训练神经网络时有什么区别？最佳答案 Supervisor 即将被弃用，鼓励新用户使用 tf.train.FooSession 类 (来自 commen
python - tf.train.ExponentialMovingAverage 和 tf.train.MomentumOptimizer 有什么区别？
我已经看到文档 tf.train.ExponentialMovingAverage 实现了这个公式: shadow_variable = decay * shadow_variable + (1 -
python - tf.train.Checkpoint 和 tf.train.Saver 之间的区别
我发现在 Tensorflow 中有不同的方法来保存/恢复模型和变量。这些方式包括: tf.saved_model.simple_save tf.train.Checkpoint tf.train.S
python - tf.train.shuffle_batch_join 和 tf.train.shuffle_batch 之间的区别
查看两个带有参数的函数签名 tf.train.shuffle_batch_join( tensors_list, batch_size, capacity, min_after_dequeue, se
python - tf.train.shuffle_batch 和 `tf.train.batch 发生了什么？
我使用 Binary data训练 DNN。但是 tf.train.shuffle_batch 和 tf.train.batch 让我很困惑。这是我的代码，我将对其进行一些测试。首先Using_
machine-learning - SageMaker Estimator.fit() 未将 'train' 输入传递给 Training 实例
正如文档/教程中提到的，我们可以调用 Estimator.fit()开始训练工作。该方法所需的参数为 inputs这是对训练文件的 s3/file 引用。示例: estimator.fit({'tr
python - key 错误 : "Invalid split train[:80%]. Available splits are: [' train']"
这个问题在这里已经有了答案: Split train data to train and validation by using tensorflow_datasets.load (TF 2.1) (
multithreading - tf.train.Coordinator 类和 tf.train.QueueRunner 类在 tensorflow 中做什么？
我知道这两个类都处理线程。根据文档，tf.train.Coordinator 协调一组线程的终止，而 tf.train.QueueRunner 保存队列的入队操作列表，每个操作都在一个线程中运行。但
tensorflow - 对于可变长度特征，使用 tf.train.SequenceExample 相对于 tf.train.Example 有何优点？
最近我读了this TensorFlow 中未记录特征的指南，因为我需要传递可变长度序列作为输入。但是，我发现 tf.train.SequenceExample 的协议(protocol)相对困惑(特

首页

博学

6Ren·AI

商城

regex - 人工智能 : What kind of process would sites like Wit use to train Natural language