- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在发布这个问题之前,我花了一整天的时间阅读 Stackoverflow 上标签部分下的机器学习和 NLP 内容。
我有以下形式的输入语句
"I am looking for an iPhone 6S possibly rose gold with 16 GB memory, what is the best deal that I can get on this"
这是我想要的内容
{intent: "discount", brand: "Apple", productLine: "iPhone", model: "6S", color: "rose gold", memory: "16GB"}
我的查询可能与手机、笔记本电脑等有关,并且可能特定于特定型号,也可能不特定。例如,它可能是“最好买什么手机”
这是我计划做的事情,但如果你们认为有更好的方法,我希望得到一些反馈或建议第一阶段清理文本、标记、删除停用词第二阶段从这句话中提取类别、品牌、型号、产品线。我相信我需要一个包含所有这些信息的某种数据库,并且我只需与句子中的品牌名称进行模糊匹配。不知道如何以最有效的方式做到这一点。
一种方法是扫描可能有 1000 个模型的完整数据库,然后获取句子并检查品牌词是否存在。我相信这必须是模糊搜索,以防万一该人写的是 i-Ball 而不是 iBall
第三阶段玫瑰金、16GB内存等特征提取。我应该在这里使用正则表达式还是有更复杂的方法来提取此类信息。
我想到的一种方法是从输入句子中提取一元词、二元词和三元词,然后以模糊方式将其与产品规范进行比较。记录链接库怎么样?
第四阶段
如何去掉句子中所有多余的垃圾,例如产品名称和功能,并将其分类为折扣或价格范围或评论类型查询?我假设当句子中没有填充产品信息时分类器可以很好地工作,否则分类器将需要巨大的训练集。
第 5 阶段我如何知道何时展示特定产品以及何时展示通用产品。例如,上面关于 iPhone 的查询是非常具体的,而如果我询问最好的手机,它是一个通用的手机。我应该使用朴素贝叶斯分类器还是逻辑回归。
终极问题实现此类实现的最佳方法是什么NLTK + ScikitlearnTF学习TensorFlow
我假设神经网络只会接受数字并输出数字。这是否意味着我必须将输入转换为向量表示。
感谢您提前提出的建议。
最佳答案
如果您刚刚开始,我的建议是不要担心 Tensorflow。您可以将 sklearn 与朴素贝叶斯等内置分类器一起使用。有一些教程将向您展示如何从文本获取数字向量并将其输入分类器以获得预测标签。
如果您正在处理的分类问题与主题或意图有很大关系,那么一元统计数据会非常有效。您可以从仅使用一元词开始,如果这不能让您到达需要的位置,那么尝试连接多词表达式来进行输入,例如“iPhone_6S可能是rose_gold,内存为16_GB”
关于machine-learning - 在这种情况下,从自然语言输入中提取意图的正确方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40245769/
我正在做一个业余爱好项目,使用 Ruby、PHP 或 Java 来抓取 ASP.net 网站的内容。例如,如果网站 url“www.myaspnet.com/home.aspx”。我想从 home.a
如果我有这些字符串: mystrings <- c("X2/D2/F4", "X10/D9/F4", "X3/D22/F4",
我有以下数据集 > head(names$SAMPLE_ID) [1] "Bacteria|Proteobacteria|Gammaproteobacteria|Pseudomonadales|Mor
设置: 3个域类A,B和C。A和B在插件中。 C在依赖于此插件的应用程序中。 class A{ B b static mapping = { b fetch: 'joi
我不知道如何提取 XML 文件中的开始标记元素名称。我很接近〜意味着没有错误,我正在获取标签名称,但我正在获取标签名称加上信息。我得到的是: {http://www.publishing.org}au
我有一个字符串 x <- "Name of the Student? Michael Sneider" 我想从中提取“Michael Sneider”。 我用过: str_extract_all(x,
我有一个如下所示的文本文件: [* content I want *] [ more content ] 我想读取该文件并能够提取我想要的内容。我能做的最好的事情如下,但它会返回 [更多内容] 请注意
假设我有一个项目集合 $collection = array( 'item1' => array( 'post' => $post, 'ca
我正在寻找一种过滤文本文件的方法。我有许多文件夹名称,其中包含许多文本文件,文本文件有几个没有人员,每个人员有 10 个群集/组(我在这里只显示了 3 个)。但是每个组/簇可能包含几个原语(我在这里展
我已经编写了一个从某个网页中提取网址的代码,我面临的问题是它不会以网页上相同的方式提取网址,我的意思是如果该网址位于某些网页中法语,它不会按原样提取它。我该如何解决这个问题? import reque
如何在 C# 中提取 ZipFile?(ZipFile 是包含文件和目录) 最佳答案 为此使用工具。类似于 SharpZip .据我所知 - .NET 不支持开箱即用的 ZIP 文件。 来自 here
我有一个表达: [training_width]:lofmimics 我要提取[]之间的内容,在上面的例子中我要 training_width 我试过以下方法: QRegularExpression
我正在尝试创建一个 Bash 脚本,该脚本将从命令行给出的最后一个参数提取到一个变量中以供其他地方使用。这是我正在处理的脚本: #!/bin/bash # compact - archive and
我正在寻找一个 JavaScript 函数/正则表达式来从 URI 中提取 *.com...(在客户端完成) 它应该适用于以下情况: siphone.com = siphone.com qwr.sip
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
编辑:添加了实际的 JSON 对象和代码以供审查 我有这种格式的 JSON(只是这种层次结构,假设 JSON 正常工作) {u'kind': u'calendar#events', u'default
我已经编写了代码来使用 BeautifulSoup 提取一本书的 url 和标题来自页面。 但它并没有在 > 之间提取惊人的 super 科学故事 1930 年 4 月这本书的名字。和 标签。 如何提
使用 Java,我想提取美元符号 $ 之间的单词。 例如: String = " this is first attribute $color$. this is the second attribu
您好,我正在尝试找到一种方法来确定字符串中的常量,然后提取该常量左侧的一定数量的字符。 例如-我有一个 .txt 文件,在那个文件的某处有数字 00nnn 数字的例子是 00234 00765 ...
php读取zip文件(删除文件,提取文件,增加文件)实例 从zip压缩文件中提取文件 复制代码 代码如下: <?php /* php 从zip压缩文件
我是一名优秀的程序员,十分优秀!